Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/12030
Title: Automatic Multilingual Web Documents Metadata Extraction
Other Titles: Автоматическое извлечение метаданных многоязычных веб-документов
Authors: Mukhamedshin, D. R.
Kurmanbakiev, M. I.
Gataullin, R. R.
Keywords: материалы конференций;metadata;data mining;web content mining;information retrieval
Issue Date: 2017
Publisher: БГУИР
Citation: Mukhamedshin, D. R. Automatic Multilingual Web Documents Metadata Extract / D. R. Mukhamedshin, M. I. Kurmanbakiev, R. R. Gataullin // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2017) : материалы международной научно-технической конференции (Минск, 16 - 18 февраля 2017 года) / редкол. : В. В. Голенков (отв. ред.) [и др.]. – Минск : БГУИР, 2017. – С. 393 – 396.
Abstract: This article describes the experience of robot devel- opment that crawls multilingual web documents, their language identification and extracting the metadata based on the metadata model of corpus manager of the electronic corpus of Tatar language “Tugan Tel”.
Alternative abstract: В данной статье рассказывается об опыте разработки робота для обхода многоязычных веб-документов, определении их языка и извлечении метаданных на основе модели метаданных в корпус-менеджере электронного корпуса татарского языка Туган Телл. В разделе II описывается структура и модель представления метаданных, применяемая в корпус-менеджере. Раздел III раскрывает информацию о необходимых для работы робота технических метаданных. В разделе IV рассказано о дополнительных метаданных, которые могут быть извлечены из веб-документов. V раздел включает в себя описание процесса сбора URI для обхода роботом, метод распознавания языка веб-документа, описание процесса обхода веб-документов и извлечения Метаданных.
URI: https://libeldoc.bsuir.by/handle/123456789/12030
Appears in Collections:OSTIS-2017

Files in This Item:
File Description SizeFormat 
Mukhamedshin_Automatic.PDF281.73 kBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.