Přejít k obsahu


Multi-label Classification of Newspaper Articles

Citace:
SKORKOVSKÁ, L. Multi-label Classification of Newspaper Articles. In SVK 2013 - magisterské a doktorské studijní programy, sborník rozšířených abstraktů. Plzeň: Západočeská univerzita v Plzni, 2013. s. 83-84. ISBN: 978-80-261-0238-0
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Multi-label Classification of Newspaper Articles
Rok vydání: 2013
Místo konání: Plzeň
Název zdroje: Západočeská univerzita v Plzni
Autoři: Ing. Lucie Skorkovská
Abstrakt CZ: Cílem klasifikace textu je roztřídit množinu dokumentů do předem definovaných tématických skupin nebo kategorií. Obvykle v oblasti klasifikace textu uvažujeme pouze klasifikaci do více tříd, kde na rozdíl od binární klasifikace existují více než dvě možné třídy.Nejjednodušším úkolem klasifikace textu je přiřadit jedno téma ke každému dokumentu, ale v úloze identifikace tématu novinového článku je především nezbytné použít multi-label klasifikaci.Popsaná metoda pro nalezení hranice definující hranici mezi "správné" a "nesprávné" téma novinového článku je založena na normalizaci obecným modelem tématu.
Abstrakt EN: The goal of the text classification is to categorize a set of documents into predefined set of topic classes or categories. Usually in the field of text classification we are considering only the multiclass classification, where unlike in the binary classification there is more than two possible classes. The simplest task of the text classification is to assign one topic to each document, but in the task of newspaper article topics identification it is especially essential to use the multi-label classification. Our experiments regard the field of generative classification, where the classifier outputs a distribution of probabilities (or likelihood scores) and a method for processing this distribution into the sets of the "correct" and the "incorrect" topics is needed. The described method for finding a threshold defining the boundary between the "correct" and the "incorrect" topics of a newspaper article is based on general topic model normalisation.
Klíčová slova

Zpět

Patička