Использование машинного обучения для изучения качества жизни населения: методологические аспекты

Е. В. Щекотин; В. Л. Гойко; П. А. Басина; В. В. Бакулин

doi:10.26425/2658-347X-2022-5-1-87-97

Использование машинного обучения для изучения качества жизни населения: методологические аспекты

Е. В. Щекотин, В. Л. Гойко, П. А. Басина, В. В. Бакулин

https://doi.org/10.26425/2658-347X-2022-5-1-87-97

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Оценка качества жизни населения является важной и актуальной задачей социологии. Машинное обучение, как инструмент классификации цифровых следов пользователей социальных сетей, позволяет сформировать базу для расчета индекса субъективного качества жизни. В статье последовательно рассмотрены все этапы применения алгоритмов машинного обучения для оценки качества жизни населения регионов Российской Федерации и вопросы повышения точности работы нейронной сети. Для обучения нейросети авторами был сформирован набор размеченных данных, извлеченных из региональных сообществ социальная сеть «ВКонтакте». Проанализированы различные подходы к векторизации текстов, общедоступные нейросетевые модели, предобученные на больших русскоязычных текстовых корпусах, а также метрики оценки результатов работы алгоритмов. Проведены вычислительные эксперименты с разными алгоритмами, по результатам которых был выбран алгоритм Rubert-tiny в связи с его высокой скоростью обучения и классификации. В ходе настройки параметров модели была достигнута точность f1-macro 0,545. Вычислительные эксперименты проводились с использованием скриптов на языке Python. Рассмотрены типичные ошибки, которые совершает нейронная сеть в процессе автоматической классификации контента. Результаты исследования можно использовать для расчета индекса онлайн-активности в социальной сети «ВКонтакте» пользователей из различных российских регионов, на основе которого в дальнейшем можно рассчитывать индекс субъективного качества жизни. Повышение точности работы нейронной сети позволит получить более надежные данные для оценки качества жизни в регионах на основе цифровых следов пользователей.

Ключевые слова

качество жизни, благополучие, цифровые методы, нереактивные методы, цифровые следы, социальные сети, ВКонтакте, машинное обучение, классификации текстов

Об авторах

Е. В. Щекотин

ФГБОУ ВО «Новосибирский государственный университет экономики и управления «НИНХ»
Россия

Щекотин Евгений Викторович, канд. филос. наук, доц., зав. лаб.

г. Новосибирск

В. Л. Гойко

ФГАОУ ВО «Национальный исследовательский Томский государственный университет»
Россия

Гойко Вячеслав Леонидович, зав. лаб.

г. Томск

П. А. Басина

ФГАОУ ВО «Национальный исследовательский Томский государственный университет»
Россия

Басина Полина Александровна, аналитик

г. Томск

В. В. Бакулин

ФГАОУ ВО «Национальный исследовательский Томский государственный университет»
Россия

Бакулин Вячеслав Викторович, аналитик

г. Томск

Список литературы

1. Богданов М.Б., Смирнов И.Б. (2021). Возможности и ограничения цифровых следов и методов машинного обучения в социологии // Мониторинг общественного мнения: экономические и социальные перемены. № 1. С. 304–328. https://doi.org/10.14515/monitoring.2021.1.1760

2. Двойникова А.А., Карпов А.А. (2020). Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. № 4 (107). С. 20–30. https://doi.org/10.31799/1684-8853-2020-4-20-30

3. Крыштановская О.В. (2018). Бесконтактная социология: новые формы исследований в цифровую эпоху // Цифровая социология. № 1. С. 4-9. https://doi.org/10.26425/2658-347Х-2018-1-4-8

4. Мюллер А., Гвидо С. (2016). Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными / пер. с анг. и ред. А.В. Груздева. М.: Вильямс. 393 с.

5. Николаенко Г.А., Федорова А.А. (2017). Нереактивная стратегия: применимость незаметных методов сбора социологической информации в условиях Web 2.0 на примере цифровой этнографии и BigData // Социология власти. T. 29, № 4. С. 36–54. https://doi.org/10.22394/2074-0492-2017-4-36-54

6. Толстова Ю.Н. (2015). Социология и компьютерные технологии // Социологические исследования. № 8 (376). С. 3–13.

7. Чичканов В.П., Васильева Е.В. (2014). Управление качеством жизни в регионе: оценка эффективности и механизм // Государственное управление. Электронный вестник. № 47. С. 163–182.

8. Щекотин Е.В. (2021). Цифровые следы как новый источник данных о качестве жизни и благополучии: обзор современных тенденций // Вестник Томского государственного университета. № 467. С. 170–181. https://doi.org/10.17223/15617793/467/21

9. Щекотин Е.В., Мягков М.Г., Гойко В.Л., Кашпур В.В., Коварж Г.Ю. (2020). Субъективная оценка (не)благополучия населения регионов РФ на основе данных социальных сетей // Мониторинг общественного мнения: экономические и социальные перемены. № 1 (155). С. 78–116. https://doi.org/10.14515/monitoring.2020.1.05

10. Chen T., Guestrin C. (2016). XGBoost: A Scalable Tree Boosting System // KDD ‘16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Pp. 785–794. https://doi.org/10.1145/2939672.293978515

11. Dawson C. (2019). A–Z of digital research methods. New York: Routledge. 424 p.

12. Devlin J., Chang M., Lee K., Toutanova K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACLHLT), V. 1. Pp. 4171–4186. https://doi.org/10.18653/v1/N19-1423

13. Jones K.S. (2004). A statistical interpretation of term speciﬁcity and its application in retrieval // Journal of Documentation. V. 60, No. 5. Pp. 493–502. https://doi.org/10.1108/00220410410560573

14. Joulin A., Grave E., Bojanowski P., Mikolov T. (2016). Bag of tricks for eﬃcient text classiﬁcation // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. V. 2. Valencia. Spain: Association for Computational Linguistics. Pp. 427–431. https://doi.org/10.18653/V1/E17-2068

15. Kutuzov A., Kuzmenko E. (2017). WebVectors: A toolkit for building web interfaces for vector semantic models // Communications in Computer and Information Science. V. 661. Pp. 155–161. https://doi.org/10.1007/978-3-319-52920-2_15

16. McGillivray M., Clarke M. [Eds]. (2006.) Understanding human well-being. Tokyo, New York, Paris: United Nations University Press. 380 p.

17. Mikolov T., Chen K., Corrado G., Dean J. (2013a). Eﬃcient estimation of word representations in vector space // Proceedings of Workshop at ICLR. Scottsdale. May 2–4. Pp. 1–11.

18. Mikolov T., Yih W.-T., Zweig G. (2013b). Linguistic regularities in continuous space word representations // Proceedings of NAACL HLT. Atlanta. Georgia. June 9–14. Pp. 746–751.

19. Pennington J., Socher R., Manning C.D. (2014). GloVe: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics. Pp. 1532–1543. https://doi.org/10.3115/v1/D14-1162

20. Peters M.E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. (2018). Deep contextualized word representations // Proceedings of NAACL-HLT. V. 1. June 1–6. New Orleans. Louisiana: Association for Computational Linguistics. Pp. 2227–2237. https://doi.org/10.18653/v1/N18-1202

21. Potdar K., Pardawala T.S., Pai C.D. (2017). A comparative study of categorical variable encoding techniques for neural network classiﬁers // International Journal of Computer Applications. V. 175, No. 4. Pp. 7–9. https://doi.org/10.5120/IJCA2017915495

22. Schober M.F., Pasek J., Guggenheim L., Lampe C., Conrad F.G. (2016). Research synthesis: Social media analyses for social measurement // Public Opinion Quarterly. V. 80, No. 1. Pp. 180–211. https://doi.org/10.1093/poq/nfv048

23. Soumya G.K., Joseph S. (2014). Text classiﬁcation by augmenting bag of words (BOW) representation with co-occurrence feature // IOSR Journal of Computer Engineering. V. 16, No. 1. Pp. 34–38. https://doi.org/10.9790/0661-16153438

Рецензия

Для цитирования:

Щекотин Е.В., Гойко В.Л., Басина П.А., Бакулин В.В. Использование машинного обучения для изучения качества жизни населения: методологические аспекты. Цифровая социология/Digital Sociology. 2022;5(1):87-97. https://doi.org/10.26425/2658-347X-2022-5-1-87-97

For citation:

Shchekotin E.V., Гойко В.Л., Basina P.A., Bakulin B.B. Using machine learning to study the population life quality: methodological aspects. Digital Sociology. 2022;5(1):87-97. (In Russ.) https://doi.org/10.26425/2658-347X-2022-5-1-87-97

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2658-347X (Print)
ISSN 2713-1653 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Цифровая социология/Digital Sociology

Использование машинного обучения для изучения качества жизни населения: методологические аспекты

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов