Přejít k obsahu


Score Normalization Methods Applied to Topic Identification

Citace:
SKORKOVSKÁ, L., ZAJÍC, Z. Score Normalization Methods Applied to Topic Identification. In Text, Speech, and Dialogue, 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. Heidelberg: Springer, 2014. s. 133-140. ISBN: 978-3-319-10815-5 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Score Normalization Methods Applied to Topic Identification
Rok vydání: 2014
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Lucie Skorkovská , Ing. Zbyněk Zajíc Ph.D.
Abstrakt CZ: Klasifikace do více témat hraje klíčovou roli v moderních třídících systémech. Jejím cílem je najít množinu značek, které patří ke každé datové položce. V klasifikaci dokumentů do více témat na rozdíl od klasifikace do více tříd, kde se volí jen to nejlepší téma, musí klasifikátor rozhodnout, zda dokument patří nebo nepatří do každého tématu z předem definované sady témat. K řešení tohoto úkolu jsme použili generativní klasifikátor, ale problém s tímto přístupem je, že musí být nastaven práh pro pozitivní klasifikaci. Tento práh se může lišit u každého dokumentu v závislosti na obsahu dokumentu (slova, délka dokumentu, ...). V tomto článku používáme metodu normalizace s neomezenou kohortou, původně navrhovanou pro identifikaci / verifikaci řečníka, pro robustní hledání prahu vymezujícího hranici mezi správnými a nesprávnými tématy dokumentu. V našich dřívějších experimentech jsme navrhli metodu pro určení tohoto prahu inspirovanou jinou normalizační technikou nazývanou normalizace skóre pomocí světového modelu. Porovnání těchto metod normalizace ukázalo, že lepších výsledků může být dosaženo při použití metody normalizace s neomezenou kohortou.
Abstrakt EN: Multi-label classification plays the key role in modern categorization systems. Its goal is to find a set of labels belonging to each data item. In the multi-label document classification unlike in the multi-class classification, where only the best topic is chosen, the classifier must decide if a document does or does not belong to each topic from the predefined topic set. We are using the generative classifier to tackle this task, but the problem with this approach is that the threshold for the positive classification must be set. This threshold can vary for each document depending on the content of the document (words used, length of the document, ...). In this paper we use the Unconstrained Cohort Normalization, primary proposed for speaker identification/verification task, for robustly finding the threshold defining the boundary between the correct and the incorrect topics of a document. In our former experiments we have proposed a method for finding this threshold inspired by another normalization technique called World Model score normalization. Comparison of these normalization methods has shown that better results can be achieved from the Unconstrained Cohort Normalization.
Klíčová slova

Zpět

Patička