Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/39457
Title: Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера
Other Titles: Using perceptual hashing in finding similar messages by the example of sample from twitter
Authors: Захарик, Ю. А.
Прокурат, Д. М.
Keywords: материалы конференций;перцептивный хэш;сравнение текстов;алгоритм Джаро;твиттер;perceptual hash;text comparison;cosine algorithm;Jaro's algorithm;twitter
Issue Date: 2020
Publisher: Беспринт
Citation: Захарик, Ю. А. Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера / Ю. А. Захарик, Д. М. Прокурат // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сб. материалов VI Междунар. науч.-практ. конф., Минск, 20-21 мая 2020 года : в 3 ч. Ч. 2 / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 266–273.
Abstract: В данной работе была рассмотрена проблема нахождения схожих сообщений на основе выборки из Твиттера. Рассмотрены следующие алгоритмы: расстояние Левенштейна, нормализованное расстояние Левенштейна, Soundex, Phonex, алгоритм Джаро, Q-граммы, алгоритм LCS, алгоритм Metric LCS, SIFT4, алгоритм Дамерлау-Левенштейна, алгоритм косинусов и алгоритм подсчета букв. Было произведено сокращение выборки и упрощение твитов. Предложен оптимальный алгоритм решения задачи.
Alternative abstract: In this paper, the problem of finding similar messages based on a selection from Twitter was considered. The following algorithms are considered: Levenshtein distance, normalized Levenshtein distance, Soundex, Phonex, Jaro algorithm, Q-grams, LCS algorithm, Metric LCS algorithm, SIFT4, Damerlau-Levenshtein algorithm, cosine algorithm and letter counting algorithm. There was a reduction in sampling and simplification of tweets. An optimal algorithm for solving the problem is proposed.
URI: https://libeldoc.bsuir.by/handle/123456789/39457
ISBN: 978-985-90533-9-9
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)

Files in This Item:
File Description SizeFormat 
Zakharik_Ispolzovaniye.pdf656.37 kBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.