Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/34848
Title: Нормализация словоформ при анализе репозитория университета с использованием графовой базы данных
Authors: Прытков, В. А.
Пилецкий, И. И.
Волорова, Н. А.
Keywords: материалы конференций;стемминг;лемматизация;обработка естественного языка;большие данные;репозиторий;автор;публикация;словоформа;NoSQL;графовые базы данных;Neo4j
Issue Date: 2019
Publisher: БГУИР
Citation: Прытков, В. А. Нормализация словоформ при анализе репозитория университета с использованием графовой базы данных / В. А. Прытков, И. И. Пилецкий, Н. А. Волорова // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник материалов V Международной научно-практической конференции, Минск, 13–14 марта 2019 г. В 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники; редкол. : В. А. Богуш [и др.]. – Минск, 2019. – С. 209 – 220.
Abstract: При обработке текстов на естественном языке для широкого класса прикладных задач возникает потребность в построении словаря терминов. Его наличие позволяет определять предметные области текстов, упрощает поиск и систематизацию информации. При этом возникает задача сведения различных словоформ термина к единой форме. В работе рассматривается подход к нормализации словоформ на примере построения системы анализа университетского репозитория БГУИР с использованием графовой базы данных Neo4j. Данный алгоритм опирается на эвристический алгоритм стемминга, однако для удобства отображения информации основа приводится к лемме путем использования статистической информации.
URI: https://libeldoc.bsuir.by/handle/123456789/34848
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2019)

Files in This Item:
File Description SizeFormat 
Prytkov_Normalizatsiya.PDF1.3 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.