DC Field | Value | Language |
dc.contributor.author | Mukhamedshin, D. R. | - |
dc.contributor.author | Kurmanbakiev, M. I. | - |
dc.contributor.author | Gataullin, R. R. | - |
dc.date.accessioned | 2017-02-23T08:49:41Z | |
dc.date.accessioned | 2017-07-18T09:38:00Z | - |
dc.date.available | 2017-02-23T08:49:41Z | |
dc.date.available | 2017-07-18T09:38:00Z | - |
dc.date.issued | 2017 | - |
dc.identifier.citation | Mukhamedshin, D. R. Automatic Multilingual Web Documents Metadata Extract / D. R. Mukhamedshin, M. I. Kurmanbakiev, R. R. Gataullin // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2017) : материалы международной научно-технической конференции (Минск, 16 - 18 февраля 2017 года) / редкол. : В. В. Голенков (отв. ред.) [и др.]. – Минск : БГУИР, 2017. – С. 393 – 396. | ru_RU |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/12030 | - |
dc.description.abstract | This article describes the experience of robot devel-
opment that crawls multilingual web documents, their language
identification and extracting the metadata based on the metadata
model of corpus manager of the electronic corpus of Tatar
language “Tugan Tel”. | ru_RU |
dc.language.iso | en | ru_RU |
dc.publisher | БГУИР | ru_RU |
dc.subject | материалы конференций | ru_RU |
dc.subject | metadata | ru_RU |
dc.subject | data mining | ru_RU |
dc.subject | web content mining | ru_RU |
dc.subject | information retrieval | ru_RU |
dc.title | Automatic Multilingual Web Documents Metadata Extraction | ru_RU |
dc.title.alternative | Автоматическое извлечение метаданных многоязычных веб-документов | ru_RU |
dc.type | Article | ru_RU |
local.description.annotation | В данной статье рассказывается об опыте разработки робота для обхода многоязычных веб-документов,
определении их языка и извлечении метаданных на
основе модели метаданных в корпус-менеджере электронного корпуса татарского языка Туган Телл. В
разделе II описывается структура и модель представления метаданных, применяемая в корпус-менеджере.
Раздел III раскрывает информацию о необходимых
для работы робота технических метаданных. В разделе
IV рассказано о дополнительных метаданных, которые
могут быть извлечены из веб-документов. V раздел
включает в себя описание процесса сбора URI для обхода роботом, метод распознавания языка веб-документа,
описание процесса обхода веб-документов и извлечения
Метаданных. | - |
Appears in Collections: | OSTIS-2017
|