Использование машинного обучения для изучения качества жизни населения: методологические аспекты
https://doi.org/10.26425/2658-347X-2022-5-1-87-97
Аннотация
Оценка качества жизни населения является важной и актуальной задачей социологии. Машинное обучение, как инструмент классификации цифровых следов пользователей социальных сетей, позволяет сформировать базу для расчета индекса субъективного качества жизни. В статье последовательно рассмотрены все этапы применения алгоритмов машинного обучения для оценки качества жизни населения регионов Российской Федерации и вопросы повышения точности работы нейронной сети. Для обучения нейросети авторами был сформирован набор размеченных данных, извлеченных из региональных сообществ социальная сеть «ВКонтакте». Проанализированы различные подходы к векторизации текстов, общедоступные нейросетевые модели, предобученные на больших русскоязычных текстовых корпусах, а также метрики оценки результатов работы алгоритмов. Проведены вычислительные эксперименты с разными алгоритмами, по результатам которых был выбран алгоритм Rubert-tiny в связи с его высокой скоростью обучения и классификации. В ходе настройки параметров модели была достигнута точность f1-macro 0,545. Вычислительные эксперименты проводились с использованием скриптов на языке Python. Рассмотрены типичные ошибки, которые совершает нейронная сеть в процессе автоматической классификации контента. Результаты исследования можно использовать для расчета индекса онлайн-активности в социальной сети «ВКонтакте» пользователей из различных российских регионов, на основе которого в дальнейшем можно рассчитывать индекс субъективного качества жизни. Повышение точности работы нейронной сети позволит получить более надежные данные для оценки качества жизни в регионах на основе цифровых следов пользователей.
Ключевые слова
Об авторах
Е. В. ЩекотинРоссия
Щекотин Евгений Викторович, канд. филос. наук, доц., зав. лаб.
г. Новосибирск
В. Л. Гойко
Россия
Гойко Вячеслав Леонидович, зав. лаб.
г. Томск
П. А. Басина
Россия
Басина Полина Александровна, аналитик
г. Томск
В. В. Бакулин
Россия
Бакулин Вячеслав Викторович, аналитик
г. Томск
Список литературы
1. Богданов М.Б., Смирнов И.Б. (2021). Возможности и ограничения цифровых следов и методов машинного обучения в социологии // Мониторинг общественного мнения: экономические и социальные перемены. № 1. С. 304–328. https://doi.org/10.14515/monitoring.2021.1.1760
2. Двойникова А.А., Карпов А.А. (2020). Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. № 4 (107). С. 20–30. https://doi.org/10.31799/1684-8853-2020-4-20-30
3. Крыштановская О.В. (2018). Бесконтактная социология: новые формы исследований в цифровую эпоху // Цифровая социология. № 1. С. 4-9. https://doi.org/10.26425/2658-347Х-2018-1-4-8
4. Мюллер А., Гвидо С. (2016). Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными / пер. с анг. и ред. А.В. Груздева. М.: Вильямс. 393 с.
5. Николаенко Г.А., Федорова А.А. (2017). Нереактивная стратегия: применимость незаметных методов сбора социологической информации в условиях Web 2.0 на примере цифровой этнографии и BigData // Социология власти. T. 29, № 4. С. 36–54. https://doi.org/10.22394/2074-0492-2017-4-36-54
6. Толстова Ю.Н. (2015). Социология и компьютерные технологии // Социологические исследования. № 8 (376). С. 3–13.
7. Чичканов В.П., Васильева Е.В. (2014). Управление качеством жизни в регионе: оценка эффективности и механизм // Государственное управление. Электронный вестник. № 47. С. 163–182.
8. Щекотин Е.В. (2021). Цифровые следы как новый источник данных о качестве жизни и благополучии: обзор современных тенденций // Вестник Томского государственного университета. № 467. С. 170–181. https://doi.org/10.17223/15617793/467/21
9. Щекотин Е.В., Мягков М.Г., Гойко В.Л., Кашпур В.В., Коварж Г.Ю. (2020). Субъективная оценка (не)благополучия населения регионов РФ на основе данных социальных сетей // Мониторинг общественного мнения: экономические и социальные перемены. № 1 (155). С. 78–116. https://doi.org/10.14515/monitoring.2020.1.05
10. Chen T., Guestrin C. (2016). XGBoost: A Scalable Tree Boosting System // KDD ‘16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Pp. 785–794. https://doi.org/10.1145/2939672.293978515
11. Dawson C. (2019). A–Z of digital research methods. New York: Routledge. 424 p.
12. Devlin J., Chang M., Lee K., Toutanova K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACLHLT), V. 1. Pp. 4171–4186. https://doi.org/10.18653/v1/N19-1423
13. Jones K.S. (2004). A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. V. 60, No. 5. Pp. 493–502. https://doi.org/10.1108/00220410410560573
14. Joulin A., Grave E., Bojanowski P., Mikolov T. (2016). Bag of tricks for efficient text classification // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. V. 2. Valencia. Spain: Association for Computational Linguistics. Pp. 427–431. https://doi.org/10.18653/V1/E17-2068
15. Kutuzov A., Kuzmenko E. (2017). WebVectors: A toolkit for building web interfaces for vector semantic models // Communications in Computer and Information Science. V. 661. Pp. 155–161. https://doi.org/10.1007/978-3-319-52920-2_15
16. McGillivray M., Clarke M. [Eds]. (2006.) Understanding human well-being. Tokyo, New York, Paris: United Nations University Press. 380 p.
17. Mikolov T., Chen K., Corrado G., Dean J. (2013a). Efficient estimation of word representations in vector space // Proceedings of Workshop at ICLR. Scottsdale. May 2–4. Pp. 1–11.
18. Mikolov T., Yih W.-T., Zweig G. (2013b). Linguistic regularities in continuous space word representations // Proceedings of NAACL HLT. Atlanta. Georgia. June 9–14. Pp. 746–751.
19. Pennington J., Socher R., Manning C.D. (2014). GloVe: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics. Pp. 1532–1543. https://doi.org/10.3115/v1/D14-1162
20. Peters M.E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. (2018). Deep contextualized word representations // Proceedings of NAACL-HLT. V. 1. June 1–6. New Orleans. Louisiana: Association for Computational Linguistics. Pp. 2227–2237. https://doi.org/10.18653/v1/N18-1202
21. Potdar K., Pardawala T.S., Pai C.D. (2017). A comparative study of categorical variable encoding techniques for neural network classifiers // International Journal of Computer Applications. V. 175, No. 4. Pp. 7–9. https://doi.org/10.5120/IJCA2017915495
22. Schober M.F., Pasek J., Guggenheim L., Lampe C., Conrad F.G. (2016). Research synthesis: Social media analyses for social measurement // Public Opinion Quarterly. V. 80, No. 1. Pp. 180–211. https://doi.org/10.1093/poq/nfv048
23. Soumya G.K., Joseph S. (2014). Text classification by augmenting bag of words (BOW) representation with co-occurrence feature // IOSR Journal of Computer Engineering. V. 16, No. 1. Pp. 34–38. https://doi.org/10.9790/0661-16153438
Рецензия
Для цитирования:
Щекотин Е.В., Гойко В.Л., Басина П.А., Бакулин В.В. Использование машинного обучения для изучения качества жизни населения: методологические аспекты. Цифровая социология/Digital Sociology. 2022;5(1):87-97. https://doi.org/10.26425/2658-347X-2022-5-1-87-97
For citation:
Shchekotin E.V., Гойко В.Л., Basina P.A., Bakulin B.B. Using machine learning to study the population life quality: methodological aspects. Digital Sociology. 2022;5(1):87-97. (In Russ.) https://doi.org/10.26425/2658-347X-2022-5-1-87-97