https://libeldoc.bsuir.by/handle/123456789/34848
Title: | Нормализация словоформ при анализе репозитория университета с использованием графовой базы данных |
Authors: | Прытков, В. А. Пилецкий, И. И. Волорова, Н. А. |
Keywords: | материалы конференций;стемминг;лемматизация;обработка естественного языка;большие данные;репозиторий;автор;публикация;словоформа;NoSQL;графовые базы данных;Neo4j |
Issue Date: | 2019 |
Publisher: | БГУИР |
Citation: | Прытков, В. А. Нормализация словоформ при анализе репозитория университета с использованием графовой базы данных / В. А. Прытков, И. И. Пилецкий, Н. А. Волорова // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник материалов V Международной научно-практической конференции, Минск, 13–14 марта 2019 г. В 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники; редкол. : В. А. Богуш [и др.]. – Минск, 2019. – С. 209 – 220. |
Abstract: | При обработке текстов на естественном языке для широкого класса прикладных задач возникает потребность в построении словаря терминов. Его наличие позволяет определять предметные области текстов, упрощает поиск и систематизацию информации. При этом возникает задача сведения различных словоформ термина к единой форме. В работе рассматривается подход к нормализации словоформ на примере построения системы анализа университетского репозитория БГУИР с использованием графовой базы данных Neo4j. Данный алгоритм опирается на эвристический алгоритм стемминга, однако для удобства отображения информации основа приводится к лемме путем использования статистической информации. |
URI: | https://libeldoc.bsuir.by/handle/123456789/34848 |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2019) |
File | Description | Size | Format | |
---|---|---|---|---|
Prytkov_Normalizatsiya.PDF | 1.3 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.