Top.Mail.Ru
Preview

Цифровая социология/Digital Sociology

Расширенный поиск

Использование машинного обучения для изучения качества жизни населения: методологические аспекты

https://doi.org/10.26425/2658-347X-2022-5-1-87-97

Аннотация

Оценка качества жизни населения является важной и актуальной задачей социологии. Машинное обучение, как инструмент классификации цифровых следов пользователей социальных сетей, позволяет сформировать базу для расчета индекса субъективного качества жизни. В статье последовательно рассмотрены все этапы применения алгоритмов машинного обучения для оценки качества жизни населения регионов Российской Федерации и вопросы повышения точности работы нейронной сети. Для обучения нейросети авторами был сформирован набор размеченных данных, извлеченных из региональных сообществ социальная сеть «ВКонтакте». Проанализированы различные подходы к векторизации текстов, общедоступные нейросетевые модели, предобученные на больших русскоязычных текстовых корпусах, а также метрики оценки результатов работы алгоритмов. Проведены вычислительные эксперименты с разными алгоритмами, по результатам которых был выбран алгоритм Rubert-tiny в связи с его высокой скоростью обучения и классификации. В ходе настройки параметров модели была достигнута точность f1-macro 0,545. Вычислительные эксперименты проводились с использованием скриптов на языке Python. Рассмотрены типичные ошибки, которые совершает нейронная сеть в процессе автоматической классификации контента. Результаты исследования можно использовать для расчета индекса онлайн-активности в социальной сети «ВКонтакте» пользователей из различных российских регионов, на основе которого в дальнейшем можно рассчитывать индекс субъективного качества жизни. Повышение точности работы нейронной сети позволит получить более надежные данные для оценки качества жизни в регионах на основе цифровых следов пользователей.

Об авторах

Е. В. Щекотин
ФГБОУ ВО «Новосибирский государственный университет экономики и управления «НИНХ»
Россия

Щекотин Евгений Викторович, канд. филос. наук, доц., зав. лаб.

г. Новосибирск



В. Л. Гойко
ФГАОУ ВО «Национальный исследовательский Томский государственный университет»
Россия

Гойко Вячеслав Леонидович, зав. лаб.

г. Томск



П. А. Басина
ФГАОУ ВО «Национальный исследовательский Томский государственный университет»
Россия

Басина Полина Александровна, аналитик

г. Томск



В. В. Бакулин
ФГАОУ ВО «Национальный исследовательский Томский государственный университет»
Россия

Бакулин Вячеслав Викторович, аналитик

г. Томск



Список литературы

1. Богданов М.Б., Смирнов И.Б. (2021). Возможности и ограничения цифровых следов и методов машинного обучения в социологии // Мониторинг общественного мнения: экономические и социальные перемены. № 1. С. 304–328. https://doi.org/10.14515/monitoring.2021.1.1760

2. Двойникова А.А., Карпов А.А. (2020). Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. № 4 (107). С. 20–30. https://doi.org/10.31799/1684-8853-2020-4-20-30

3. Крыштановская О.В. (2018). Бесконтактная социология: новые формы исследований в цифровую эпоху // Цифровая социология. № 1. С. 4-9. https://doi.org/10.26425/2658-347Х-2018-1-4-8

4. Мюллер А., Гвидо С. (2016). Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными / пер. с анг. и ред. А.В. Груздева. М.: Вильямс. 393 с.

5. Николаенко Г.А., Федорова А.А. (2017). Нереактивная стратегия: применимость незаметных методов сбора социологической информации в условиях Web 2.0 на примере цифровой этнографии и BigData // Социология власти. T. 29, № 4. С. 36–54. https://doi.org/10.22394/2074-0492-2017-4-36-54

6. Толстова Ю.Н. (2015). Социология и компьютерные технологии // Социологические исследования. № 8 (376). С. 3–13.

7. Чичканов В.П., Васильева Е.В. (2014). Управление качеством жизни в регионе: оценка эффективности и механизм // Государственное управление. Электронный вестник. № 47. С. 163–182.

8. Щекотин Е.В. (2021). Цифровые следы как новый источник данных о качестве жизни и благополучии: обзор современных тенденций // Вестник Томского государственного университета. № 467. С. 170–181. https://doi.org/10.17223/15617793/467/21

9. Щекотин Е.В., Мягков М.Г., Гойко В.Л., Кашпур В.В., Коварж Г.Ю. (2020). Субъективная оценка (не)благополучия населения регионов РФ на основе данных социальных сетей // Мониторинг общественного мнения: экономические и социальные перемены. № 1 (155). С. 78–116. https://doi.org/10.14515/monitoring.2020.1.05

10. Chen T., Guestrin C. (2016). XGBoost: A Scalable Tree Boosting System // KDD ‘16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Pp. 785–794. https://doi.org/10.1145/2939672.293978515

11. Dawson C. (2019). A–Z of digital research methods. New York: Routledge. 424 p.

12. Devlin J., Chang M., Lee K., Toutanova K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACLHLT), V. 1. Pp. 4171–4186. https://doi.org/10.18653/v1/N19-1423

13. Jones K.S. (2004). A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. V. 60, No. 5. Pp. 493–502. https://doi.org/10.1108/00220410410560573

14. Joulin A., Grave E., Bojanowski P., Mikolov T. (2016). Bag of tricks for efficient text classification // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. V. 2. Valencia. Spain: Association for Computational Linguistics. Pp. 427–431. https://doi.org/10.18653/V1/E17-2068

15. Kutuzov A., Kuzmenko E. (2017). WebVectors: A toolkit for building web interfaces for vector semantic models // Communications in Computer and Information Science. V. 661. Pp. 155–161. https://doi.org/10.1007/978-3-319-52920-2_15

16. McGillivray M., Clarke M. [Eds]. (2006.) Understanding human well-being. Tokyo, New York, Paris: United Nations University Press. 380 p.

17. Mikolov T., Chen K., Corrado G., Dean J. (2013a). Efficient estimation of word representations in vector space // Proceedings of Workshop at ICLR. Scottsdale. May 2–4. Pp. 1–11.

18. Mikolov T., Yih W.-T., Zweig G. (2013b). Linguistic regularities in continuous space word representations // Proceedings of NAACL HLT. Atlanta. Georgia. June 9–14. Pp. 746–751.

19. Pennington J., Socher R., Manning C.D. (2014). GloVe: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics. Pp. 1532–1543. https://doi.org/10.3115/v1/D14-1162

20. Peters M.E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. (2018). Deep contextualized word representations // Proceedings of NAACL-HLT. V. 1. June 1–6. New Orleans. Louisiana: Association for Computational Linguistics. Pp. 2227–2237. https://doi.org/10.18653/v1/N18-1202

21. Potdar K., Pardawala T.S., Pai C.D. (2017). A comparative study of categorical variable encoding techniques for neural network classifiers // International Journal of Computer Applications. V. 175, No. 4. Pp. 7–9. https://doi.org/10.5120/IJCA2017915495

22. Schober M.F., Pasek J., Guggenheim L., Lampe C., Conrad F.G. (2016). Research synthesis: Social media analyses for social measurement // Public Opinion Quarterly. V. 80, No. 1. Pp. 180–211. https://doi.org/10.1093/poq/nfv048

23. Soumya G.K., Joseph S. (2014). Text classification by augmenting bag of words (BOW) representation with co-occurrence feature // IOSR Journal of Computer Engineering. V. 16, No. 1. Pp. 34–38. https://doi.org/10.9790/0661-16153438


Рецензия

Для цитирования:


Щекотин Е.В., Гойко В.Л., Басина П.А., Бакулин В.В. Использование машинного обучения для изучения качества жизни населения: методологические аспекты. Цифровая социология/Digital Sociology. 2022;5(1):87-97. https://doi.org/10.26425/2658-347X-2022-5-1-87-97

For citation:


Shchekotin E.V., Гойко В.Л., Basina P.A., Bakulin B.B. Using machine learning to study the population life quality: methodological aspects. Digital Sociology. 2022;5(1):87-97. (In Russ.) https://doi.org/10.26425/2658-347X-2022-5-1-87-97

Просмотров: 885


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2658-347X (Print)
ISSN 2713-1653 (Online)