Přejít k obsahu


Dynamic Threshold Selection Method for Multi-label Newspaper Topic Identification

Citace:
SKORKOVSKÁ, L. Dynamic Threshold Selection Method for Multi-label Newspaper Topic Identification. In Text, Speech and Dialogue. Heidelberg: Springer, 2013. s. 209-216. ISBN: 978-3-642-40584-6 , ISSN: 0302-9743
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Dynamic Threshold Selection Method for Multi-label Newspaper Topic Identification
Rok vydání: 2013
Místo konání: Heidelberg
Název zdroje: Springer
Autoři: Ing. Lucie Skorkovská
Abstrakt CZ: V současné době je klasifikace do více tříd stále více vyžadována v moderních systémech třídění. Obzvláště důležitá je v úloze identifikace tématu novinových článků. Tento článek představuje metodu založenou na normalizaci obecným modelem tématu pro nalezení prahu vymezujícího hranici mezi "správnými" a "nesprávnými" tématy novinového článku. Navržená metoda se používá ke zlepšení výsledků algoritmu pro identifikaci tématu, který je součástí komplexního systému pro získávání a ukládání velkých objemů textových dat. Modul identifikace tématu používá Naive Bayes klasifikátor a přiřadí každému článku témata z předem stanovené poměrně rozsáhlé hierarchie témat - obsahuje asi 450 témat a tematických kategorií.
Abstrakt EN: Nowadays, the multi-label classification is increasingly required in modern categorization systems. It is especially essential in the task of newspaper article topics identification. This paper presents a method based on general topic model normalisation for finding a threshold defining the boundary between the "correct" and the "incorrect" topics of a newspaper article. The proposed method is used to improve the topic identification algorithm which is a part of a complex system for acquisition and storing large volumes of text data. The topic identification module uses the Naive Bayes classifier for the multiclass and multi-label classification problem and assigns to each article the topics from a defined quite extensive topic hierarchy - it contains about 450 topics and topic categories. The results of the experiments with the improved topic identification algorithm are presented in this paper.
Klíčová slova

Zpět

Patička