Automatic Multilingual Web Documents Metadata Extraction

Mukhamedshin, D. R.; Kurmanbakiev, M. I.; Gataullin, R. R.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Mukhamedshin, D. R.	-
dc.contributor.author	Kurmanbakiev, M. I.	-
dc.contributor.author	Gataullin, R. R.	-
dc.date.accessioned	2017-02-23T08:49:41Z
dc.date.accessioned	2017-07-18T09:38:00Z	-
dc.date.available	2017-02-23T08:49:41Z
dc.date.available	2017-07-18T09:38:00Z	-
dc.date.issued	2017	-
dc.identifier.citation	Mukhamedshin, D. R. Automatic Multilingual Web Documents Metadata Extract / D. R. Mukhamedshin, M. I. Kurmanbakiev, R. R. Gataullin // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2017) : материалы международной научно-технической конференции (Минск, 16 - 18 февраля 2017 года) / редкол. : В. В. Голенков (отв. ред.) [и др.]. – Минск : БГУИР, 2017. – С. 393 – 396.	ru_RU
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/12030	-
dc.description.abstract	This article describes the experience of robot devel- opment that crawls multilingual web documents, their language identiﬁcation and extracting the metadata based on the metadata model of corpus manager of the electronic corpus of Tatar language “Tugan Tel”.	ru_RU
dc.language.iso	en	ru_RU
dc.publisher	БГУИР	ru_RU
dc.subject	материалы конференций	ru_RU
dc.subject	metadata	ru_RU
dc.subject	data mining	ru_RU
dc.subject	web content mining	ru_RU
dc.subject	information retrieval	ru_RU
dc.title	Automatic Multilingual Web Documents Metadata Extraction	ru_RU
dc.title.alternative	Автоматическое извлечение метаданных многоязычных веб-документов	ru_RU
dc.type	Article	ru_RU
local.description.annotation	В данной статье рассказывается об опыте разработки робота для обхода многоязычных веб-документов, определении их языка и извлечении метаданных на основе модели метаданных в корпус-менеджере электронного корпуса татарского языка Туган Телл. В разделе II описывается структура и модель представления метаданных, применяемая в корпус-менеджере. Раздел III раскрывает информацию о необходимых для работы робота технических метаданных. В разделе IV рассказано о дополнительных метаданных, которые могут быть извлечены из веб-документов. V раздел включает в себя описание процесса сбора URI для обхода роботом, метод распознавания языка веб-документа, описание процесса обхода веб-документов и извлечения Метаданных.	-
Appears in Collections:	OSTIS-2017