Zpět
Automatic Topic Identification for Large Scale Language Modeling Data Filtering
Citace: |
SKORKOVSKÁ, L., IRCING, P., PRAŽÁK, A., LEHEČKA, J. Automatic Topic Identification for Large Scale Language Modeling Data Filtering. Lecture Notes in Computer Science, 2011, roč. 2011, č. 6836, s. 64-71. ISSN: 0302-9743
|
---|---|
Druh: | ČLÁNEK |
Jazyk publikace: | eng |
Anglický název: | Automatic Topic Identification for Large Scale Language Modeling Data Filtering |
Rok vydání: | 2011 |
Místo konání: | Heidelberg |
Název zdroje: | Springer |
Autoři: | Ing. Lucie Skorkovská , Ing. Pavel Ircing , Ing. Aleš Pražák Ph.D. , Bc. Jan Lehečka |
Abstrakt CZ: | Tento článek představuje modul pro identifikaci tématu, který je součástí komplexního systému pro získávání, zpracování a ukládání velkého množství textových dat z webových stránek. Modul zpracovává získaná data a přiřazuje jim klíčová slova z hierarchie témat, která byla vytvořena pro tyto účely. Kvalita identifikace tématu je vyhodnocena dvěma způsoby - za použití klasických měr přesnosti a úplnosti, ale také nepřímo, měřením úspěšnosti ASR systému s použitím tématicky orientovaných jazykových modelů vytvořených z takto automaticky filtrovaných dat. |
Abstrakt EN: | The paper presents a module for topic identification that is embedded into a complex system for acquisition and storing large volumes of text data from the Web. The module processes each of the acquired data items and assigns keywords to them from a defined topic hierarchy that was developed for this purposes and is also described in the paper. The quality of the topic identification is evaluated in two ways - using classic precision-recall measures and also indirectly, by measuring the ASR performance of the topic-specific language models that are built using the automatically filtered data. |
Klíčová slova |
Zpět