Přejít k obsahu


JMZW: Application of Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering

Citace:
SKORKOVSKÁ, L. JMZW: Application of Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering. In SVK 2012 - magisterské a doktorské studijní programy, sborník rozšířených abstraktů. Plzeň: Západočeská univerzita v Plzni, 2012. s. 91-93. ISBN: 978-80-261-0127-7
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: JMZW: Application of Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering
Rok vydání: 2012
Místo konání: Plzeň
Název zdroje: Západočeská univerzita v Plzni
Autoři: Ing. Lucie Skorkovská
Abstrakt CZ: Modul identifikace tématu, který je součástí komplexního systému pro získávání a ukládání velkých objemů textových dat, zpracovává získané datové položky a přiřadí jim témata z definované hierarchie témat. Vzhledem k tomu, že systém se používá pro zpracování velkých objemů dat, byla implementována metoda sumarizace. Hlavním cílem modulu identifikace tématu je filtrovat obrovské množství dat podle jejich témat pro budoucí použití jako trénovacích dat pro jazykové modelování. Modul používá přístup podobný Naive Bayes klasifikaci pro určení tématu a přiřadí 3 témata každému článku.
Abstrakt EN: The topic identification module, which is a part of a complex system for acquisition and storing large volumes of text data, processes each acquired data item and assigns to it topics from a defined topic hierarchy. The topic hierarchy is quite extensive - it contains about 450 topics and topic categories. Since the system is used for processing large amounts of data, a summarization method was implemented and the effect of using only the summary of an article on the topic identification accuracy is studied. The main purpose of the topic identification module is to filter the huge amount of data according to their topics for the future use as the language modeling training data. The module uses a language modeling based approach similar to the Naive Bayes classifier for the implementation of the topic identification and assigns 3 topics to each article. Topics are chosen from a hierarchical system - a ?topic tree?.
Klíčová slova

Zpět

Patička