Přejít k obsahu


JMZW: Topic Identification in Czech Newspaper Articles

Citace:
SKORKOVSKÁ, L. JMZW: Topic Identification in Czech Newspaper Articles. In SVK 2011 - magisterské a doktorské studijní programy, sborník rozšířených abstraktů. Plzeň: Západočeská univerzita v Plzni, 2011. s. 95-96. ISBN: 978-80-261-0000-3
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: JMZW: Topic Identification in Czech Newspaper Articles
Rok vydání: 2011
Místo konání: Plzeň
Název zdroje: Západočeská univerzita v Plzni
Autoři: Ing. Lucie Skorkovská
Abstrakt EN: Topic identification module is a part of the complex system for acquisition and storing large volumes of text data from the Web called JMZW - Jazykové modelování z webu. This module processes each acquired text item, mostly newspaper article, and automatically assigns keywords from a predefined topic hierarchy to it.The main purpose of the JMZW system is to acquire and process data for training of extensive language models used in Automatic Speech Recognition systems. Since it has been shown that a smaller topic specific language model can outperform a much bigger general one, it is important to filter the gathered data according to its topics.
Klíčová slova

Zpět

Patička