Přejít k obsahu


Towards Processing of the Oral History Interviews and Related Printed Documents

Citace:
ZAJÍC, Z., ZAJÍCOVÁ, L., NEDUCHAL, P., IRCING, P., PSUTKA, J., HRÚZ, M., PRAŽÁK, , SOUTNER, D., ŠVEC, J., BUREŠ, L., MÜLLER, L. Towards Processing of the Oral History Interviews and Related Printed Documents. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). neuvedeno: European Language Resources Association (ELRA), 2018. s. 2099-2104. ISBN: 979-10-95546-00-9
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Towards Processing of the Oral History Interviews and Related Printed Documents
Rok vydání: 2018
Místo konání: neuvedeno
Název zdroje: European Language Resources Association (ELRA)
Autoři: Ing. Zbyněk Zajíc Ph.D. , Ing. Lucie Zajícová Ph.D. , Ing. Petr Neduchal , Doc. Ing. Pavel Ircing Ph.D. , Ing. Mgr. Josef Psutka Ph.D. , Ing. Marek Hrúz Ph.D. , Ing. Aleš Pražák Ph.D. , Ing. Daniel Soutner , Ing. Jan Švec Ph.D. , Ing. Lukáš Bureš , Doc. Ing. Luděk Müller Ph.D. ,
Abstrakt CZ: Tento článek popisuje průběžný stav našeho projektu, jehož cílem je vytvořit integrovaný archiv relevantních nahrávek a dokumentů a zpřístupnit je tak veřejnosti s možností přímého vyhledávání v nich. Nahrávky obsahují retrospektivní výpovědi svědků totalitních režimů v Československu. Slovník těchto výpovědí obsahuje mnoho archaických slov, jmenných entit, které jsou v dnešní běžné mluvě vzácné, což znesnadňuje jejich automatický přepis. Oskenované dokumenty obsahují spisy a fotografie převážně z domácích archivů nebo z archivů státní bezpečnosti. Tyto dokumenty, obvykle psané strojem nebo rukou, jsou obtížně strojově čitelné (z důvodu jejich nízké optické kvality). Za účelem vytvořit integrovaný archiv jsme zapojili metody automatického přepisu mluveného i tištěného slova, automatickou indexaci a vyhledávání v rozpoznaných nahrávkách/dokumentech. Teto článek se zaměřuje na popsání stávajícího procesu automatického zpracování těchto dat použitím ASR a OCR metod a prezentuje naše první výsledky.
Abstrakt EN: In this paper, we describe the initial stages of our project, the goal of which is to create an integrated archive of the recordings, scanned documents, and photographs that would be accessible online and would provide multifaceted search capabilities (spoken content, biographical information, relevant time period, etc.). The recordings contain retrospective interviews with the witnesses of the totalitarian regimes in Czechoslovakia, where the vocabulary used in such interviews consists of many archaic words and named entities that are now quite rare in everyday speech. The scanned documents consist of text materials and photographs mainly from the home archives of the interviewees or the archive of the State Security. These documents are usually typewritten or even handwritten and have really bad optical quality. In order to build an integrated archive, we will employ mainly methods of automatic speech recognition (ASR), automatic indexing and search in recognized recordings and, to a certain extent, also the optical character recognition (OCR). Other natural language processing techniques like topic detection are also planned to be used in the later stages of the project. This paper focuses on the processing of the speech data using ASR and the scanned typewritten documents with OCR and describes the initial experiments.
Klíčová slova

Zpět

Patička