1. bookVolume 68 (2017): Issue 2 (December 2017)
Journal Details
License
Format
Journal
eISSN
1338-4287
ISSN
0021-5597
First Published
05 Mar 2010
Publication timeframe
2 times per year
Languages
English
access type Open Access

New Spoken Corpora of Czech: ORTOFON and DIALEKT

Published Online: 24 Jan 2018
Volume & Issue: Volume 68 (2017) - Issue 2 (December 2017)
Page range: 219 - 228
Journal Details
License
Format
Journal
eISSN
1338-4287
ISSN
0021-5597
First Published
05 Mar 2010
Publication timeframe
2 times per year
Languages
English
Abstract

The paper introduces the ORTOFON corpus of spontaneous spoken Czech and the DIALEKT corpus of Czech dialects, their design principles and practical solutions adopted during data collection.

Keywords

[1] Balhar, J. et al. (1992–2011). Český jazykový atlas. 6 sv. Academia, Praha.Search in Google Scholar

[2] Balhar, J. et al. (2011). Český jazykový atlas. Dodatky. Academia, Praha.Search in Google Scholar

[3] Benešová, L., Waclawičová, M., and Křen, M. (2013). ORAL2013: reprezentativní korpus neformální mluvené češtiny. ÚČNK FF UK, Praha. Accessible at: http://korpus.cz.Search in Google Scholar

[4] Crowdy, S. (1993). Spoken Corpus Design and Transcription. Literary and Linguistic Computing 8(4):259–265.Search in Google Scholar

[5] Čermák, F., Adamovičová, A., and Pešička, J. (2001). PMK (Pražský mluvený korpus): přepisy nahrávek pražské mluvy z 90. let 20. století. Ústav Českého národního korpusu FF UK, Praha. Accessible at: http://www.korpus.cz.Search in Google Scholar

[6] Čermák, F. et al. (2007). Frekvenční slovník mluvené češtiny. Karolinum, Praha.Search in Google Scholar

[7] Čermák, F. (2009). Spoken Corpora Design: Their Constitutive Parameters. International Journal of Corpus Linguistics, 14(1):113–123.Search in Google Scholar

[8] Dialektologická komise České akademie věd a umění (1951). Pravidla pro vědecký přepis dialektických zápisů českých a slovenských. Česká akademie věd a umění, Praha.Search in Google Scholar

[9] Feagin, C. (2002). Entering the community: Fieldwork. In Chambers, J. K., Trudgill, P., and Schilling-Estes, N., editors, The Handbook of Language Variation and Change, pages 20–39, Blackwell Publishing, Malden, MA.Search in Google Scholar

[10] Goláňová, H., Kopřivová, M., Lukeš, D., and Štěpán, M. (2015). Kartografické a geografické zpracování dat z mluvených korpusů. Korpus – gramatika – axiologie, 11:42–54.Search in Google Scholar

[11] Hajič, J. and Hlaváčová, J. (2013). MorfFlex CZ. Univerzita Karlova v Praze, MFF, ÚFAL, Praha.Search in Google Scholar

[12] Hlaváčková, D. (2001). Korpus mluvené češtiny z brněnského prostředí a jeho morfologické značkování. Slovo a slovesnost, 62(1):62–70.Search in Google Scholar

[13] Hlaváčková, D. and Osolsobě, K. (2008). Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky. In Kopřivová, M. and Waclawičová, M., editors, Čeština v mluveném korpusu, pages 105–114, Nakladatelství Lidové noviny / Ústav Českého národního korpusu, Praha, Czech Republic.Search in Google Scholar

[14] Kloferová, S. (2000). Mluva v severomoravském pohraničí. Masarykova univerzita, Brno.Search in Google Scholar

[15] Kopřivová, M. and Waclawičová, M. (2006). ORAL2006: korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha. Accessible at: http://www.korpus.cz.Search in Google Scholar

[16] Kopřivová, M., Goláňová, H., Klimešová, P., and Lukeš, D. (2014). Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014), pages 376–382, European Language Resources Association, Reykjavík, Iceland.Search in Google Scholar

[17] Kopřivová, M., Goláňová, H., Klimešová, P., Komrsková, Z., and Lukeš, D. (2014). Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In Complex Visibles Out There, pages 529–544, Univerzita Palackého v Olomouci, Olomouc, Czech Republic.Search in Google Scholar

[18] Kopřivová, M., Komrsková, Z., Lukeš, D., and Poukarová, P. (2017). Korpus ORAL: sestavení, lemmatizace a morfologické značkování. Korpus – gramatika – axiologie, 15:47–67.Search in Google Scholar

[19] Lamprecht, A. and Michálková, V., editors (1976). České nářeční texty. SPN, Praha.Search in Google Scholar

[20] Lukeš, D., Klimešová, P., Komrsková, Z., and Kopřivová, M. (2015). Experimental tagging of the ORAL series corpora: Insights on using a stochastic tagger. In Král, P. and Matoušek, V., editors, TSD 2015, LNAI 9302, pages 342–350, Springer International Publishing.10.1007/978-3-319-24033-6_39Search in Google Scholar

[21] Sloetjes, H. and Wittenburg, P. (2008). Annotation by Category: ELAN and ISO DCR. In LREC 2008: Sixth International Conference on Language Resources and Evaluation, pages 816–820. Accessible at: http://www.lrec-conf.org/proceedings/lrec2008/summaries/208.html, retrieved 2017-07-31.Search in Google Scholar

[22] Sochová, Z. (2001). Lašská slovní zásoba. Academia, Praha.Search in Google Scholar

[23] Waclawičová, M., Kopřivová, M., Křen, M., and Válková, L. (2008). ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Ústav Českého národního korpusu FF UK, Praha. Accessible at: http://www.korpus.cz.Search in Google Scholar

Recommended articles from Trend MD

Plan your remote conference with Sciendo