Наверх

Исследование алгоритма LDA в задаче тематического моделирования на примере новостной ленты социальной сети

DOI: 10.22213/ie021215
ELIBRARY:
ГРНТИ: Предметизация и индексирование 201917
Ключевые слова: тематическое моделирование, вероятностный метод, статистический анализ текста, социальная сеть, LDA, Gensim.
Авторский коллектив:
  • Евсеев Т. М., магистрант, Ижевск, Россия, ФГБОУ ВО «ИжГТУ имени М. Т. Калашникова»;
  • Мокроусов М. Н., кандидат технических наук, доцент, Ижевск, Россия, ФГБОУ ВО «ИжГТУ имени М. Т. Калашникова»;
Аннотация: В статье рассматриваются основные понятия, и проводится обзор актуальных методов тематического моделирования естественного языка. С использованием библиотеки Gensim проводится экспериментальное исследование работы одного из вероятностных методов - латентное размещение Дирихле (LDA) - при определении тематик текстов новостных лент сообществ социальной сети ВКонтакте. Ручная оценка и оценка согласованности результатов показала хорошую долю интерпретируемости тем данным методом.
Список литературы:
[1] Hofmann, Thomas. Probabilistic Latent Semantic Analysis // Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. - UAI’99. - San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1999. - Pp. 289-296.
[2] Коршунов, А. Тематическое моделирование текстов на естественном языке / А. Коршунов, А. Гомзин // Труды Института системного программирования РАН. - 2012. - Т. 23. - С. 215-244.
[3] Christopher, D. An Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze Draft // Cambridge University Press. - 2009. - 544 pp.
[4] Карпенюк, А. В. Моделирование тематик с помощью модели скрытое распределение Дирихле (СРД) / А. В. Карпенюк, Р. Х. Бахитова // Экономика и управление: теория, методология, практика : сб. материалов ХIV Междунар. науч.-практ. конф. / под ред. Л. С. Валинуровой, Э И. Исхаковой, О. Б. Казаковой, Н. А. Кузьминых, Д. И. Машкиной. - Уфа : Башкир. гос. ун-т, 2019. - С. 146-150.
[5] Беспалов, М. Е. Нейростевые методы понижения размерности признакового пространства на основе механизмов автоассоциативной памяти // Формирование среды для личностного и общественного развития : сб. науч. ст. по материалам Междунар. науч.-практ. конф., Москва, 22 сентября 2015 года. - Москва : Научный консультант, 2015. - С. 90-93.
[6] Blei, David M. Lafferty, John (ed.). Latent Dirichlet Allocation / David M. Blei, Ng. Andrew Y., Jordan Michael I. // Journal of Machine Learning Research. - January 2003. - No. 3 (4-5). - Pp. 993-1022.
[7] Воронцов, К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. - Т. 455, № 3. - С. 268-271. DOI: 10.7868/S0869565214090096.
[8] Митрофанова, О. А. Вероятностное моделирование тематики русскоязычных корпусов текстов с использованием компьютерного инструмента Gensim // Корпусная лингвистика - 2015 : тр. Междунар. конф., Санкт-Петербург, 22-26 июня 2015 г. / отв. ред.: В. П. Захаров, О. А. Митрофанова, М. В. Хохлова. - Санкт-Петербург : Издательство Санкт-Петербург. гос. ун-та, 2015. - С. 332-343.
Календарь событий