UD Komi Zyrian IKDP
Language: Komi Zyrian (code: kpv
)
Family: Uralic, Permic
This treebank has been part of Universal Dependencies since the UD v2.2 release.
The following people have contributed to making this treebank part of UD: Niko Partanen, Rogier Blokland, Michael Rießler.
Repository: UD_Komi_Zyrian-IKDP
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: CC BY-SA 4.0
Genre: spoken
Questions, comments? General annotation questions (either Komi Zyrian-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [nikotapiopartanen (æt) gmail • com]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | assigned by a program, with some manual corrections, but not a full manual verification |
UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
XPOS | assigned by a program, with some manual corrections, but not a full manual verification |
Features | assigned by a program, with some manual corrections, but not a full manual verification |
Relations | annotated manually, natively in UD style |
Description
This treebank consists of dialectal transcriptions of spoken Komi-Zyrian. The current texts are short recorded segments from different areas where the Iźva dialect of Komi language is spoken.
The materials have been collected within the Iźva Komi Documentation Project, funded by Kone Foundation in 2014-2016, and archived in The Language Archive. The transcriptions have been done by native speakers, and the orthographic transcription system, although matching the Komi orthography where applicable, is primarily phonemic. The data in this treebank represents only the northern Iźva dialect of Komi, but materials from other dialects will also be included in the future. The sent_id
values match those in archived the IKDP corpus, and the +
character is used to mark sentence IDs that span across multiple annotations.
The corpus contains portions of recordings made between 1959 and 2016. The parts that have been published earlier by Erik Vászolyi in the Specimina Sibirica series are reproduced here with written permission.
The IKDP corpus uses the treebank as one of its annotation schemes. During the end of 2018, the entire audio-visual language documentation corpus will be transferred from TLA into a new repository. In this process, the actual linking of the treebank to the multimedia files will be revisited and clear conventions for doing this will be developed and documented. This work will be completed by release 2.4.
Acknowledgments
The work was done as collaboration within the Kone Foundation-funded research project Language Documentation meets Language Technology: The Next Step in the Description of Komi and the LAKME project funded by a grant from Paris Sciences et Lettres (IDEX PSL reference ANR-10-IDEX-0001-02).
If you use this treebank in your work, please cite:
- Partanen, Niko; Blokland, Rogier; Lim, KyungTae; Poibeau, Thierry and Rießler, Michael 2018: First Komi-Zyrian Universal Dependencies Treebanks. Proceedings of the Second Workshop on Universal Dependencies (UDW 2018) (pp. 126-132).
Sources used
-
Blokland, Rogier; Chuprov, Vassily; Fedina, Maria; Fedina, Marina; Levchenko, Dmitriy; Partanen, Niko and Rießler, Michael. 2016: Iźva Komi Documentation Project corpus. Funded by Kone Foundation. URL: https://hdl.handle.net/1839/00-0000-0000-001B-99BC-F@view
-
Vászolyi Erik 1999: Syrjaenica: narratives, folklore and folk poetry from eight dialects of the Komi language. Vol. 1, Upper Izhma, Lower Ob, Kanin Peninsula, Upper Jusva, Middle Inva, Udora. Savariae.
Statistics of UD Komi Zyrian IKDP
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB
Features
Case – Connegative – Derivation – Evident – Mood – Number – Number[psor] – NumType – Person – Person[psor] – Polarity – PronType – Reflex – Tense – VerbForm
Relations
acl – advcl – advmod – amod – appos – aux – case – cc – ccomp – compound – conj – cop – csubj – dep – det – discourse – fixed – flat:name – goeswith – iobj – list – mark – nmod – nsubj – nummod – obj – obl – parataxis – punct – reparandum – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 87 sentences and 1058 tokens.
- This corpus contains 253 tokens (24%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 13 types of words that contain both letters and punctuation. Examples: Вто-, Нарьян-Марскей, Нярьян-Маре, ОПХ-а, Ханты-Мансийскей, Юго-Восточной, ае-маме, висьт-, луннас-а, лёк-а, мыйке-майда, олень-совхоз, только-только
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB
- This corpus does not use the following tags: SYM, X
- This corpus contains 20 word types tagged as particles (PART): А, Ну, Так, абу, вед, веське, вот, выйым, да, же, значит, и, ли, не, но, тай, то, тоже, чё, эське
- This corpus contains 23 lemmas tagged as pronouns (PRON): Всё, ас, быд, кодке, кодкӧ, ме, ми, мы, мыйке, мыйкӧ, мыйтӧм, мӧд, некод, никучем, став, сыа, сэтшӧм, сійӧ, татшӧм, что, этайӧ, этія, я
- This corpus contains 8 lemmas tagged as determiners (DET): быд, весь, какой, мӧд, сизим, став, такой, четвёртэй
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: быд, мӧд, став
- This corpus contains 5 lemmas tagged as auxiliaries (AUX): oз, быть, вӧвны, лоны, оз
- Out of the above, 2 lemmas occurred sometimes as AUX and sometimes as VERB: лоны, оз
- There are 4 (de)verbal forms:
- Conv
- VERB: вӧрзялыгдырйи
- Fin
- AUX: вӧлі, ог, вӧліс, из, лоас, оз, лоо, он
- VERB: ветлі, мӧдэма, примитіс, рӧдитчи, рӧдитчылі, босьтіс, висьталэма, колэныс, кочегариті, приведитчис
- Inf
- VERB: висьтооны, ветлыны, воедны, вӧрзёоны, каны, кольччыны, мунны, ортсасьны, пуктыны, рӧбитны
- Part
- VERB: закончитэм
Nominal Features
- Plur
- ADJ: ыдзыдэсь, большие
- AUX: были
- NOUN: кокъясэ, ребята, Гожемъясын, Керкаяс, бабаясыс, баняяс, вокъяскед, вӧӧяссэ, гаражъяс, глаза
- NUM: квайтэнэсь
- PRON: миян, Ми, меам, менам, миянумес
- VERB: знали, колэныс, ваедісны, велӧдчӧны, ветлӧны, видзены, висьмисныс, вӧдитам, вӧрземаась, вӧрзисныс
- VERB-Fin: колэныс, ваедісны, велӧдчӧны, ветлӧны, видзены, висьмисныс, вӧдитам, вӧрземаась, вӧрзисныс, вӧрзялісныс
- Sing
- ADJ: ас, второй, клубного, межпоселенческого, Берёзовский, Вто-, Выль, Ленинградскей, Нарьян-Марскей, Ненецкий
- ADP: вылын, бӧрын, вылэ, доре, сае, сайын, бӧрас, вылас, дорас
- ADV: бӧр, водз, уна
- AUX: вӧлі, вӧліс, было, лоас, лоо
- AUX-Fin: вӧлі, вӧліс, лоас, лоо
- DET: Став, всю, мӧд, сизимед, такое, четвёртэй
- NOUN: во, ае, год, чой, чом, вок, класс, коми, маме, тундраа
- NUM: сизим, кык, дас, куим, нёль, кӧкъямыс, три, тысяча, четыреста, шейсят
- PRON: ме, сыа, сы, Всё, менам, меня, ми, нас, сіес, Сылэн
- PROPN: Тимкалэн, Азии, Генриетта, Дань, Елена, Зӧт, Из, Красный, Ляпинын, Ляпиныс
- VERB: ветлі, мӧдэма, примитіс, рӧдитчи, рӧдитчылі, босьтіс, вермы, висьталэма, делал, кочегариті
- VERB-Fin: ветлі, мӧдэма, примитіс, рӧдитчи, рӧдитчылі, босьтіс, висьталэма, кочегариті, приведитчис, рӧбиті
- Acc
- DET: всю
- NOUN: живносьсэ, Керкаяс, баб, баняяс, берегсэ, вӧлэсьсэ, вӧӧяссэ, гаражъяс, глаза, деревню
- NUM: сизим
- PRON: сіес, менэ, миянумес, никодэс, сіе
- PROPN: Красный
- Com
- NOUN: вокъяскед, дядьяскед, мукедыс, родительяскед, челядькед
- Dat
- NOUN: аелы, году, прозвищу, часу
- PRON: аслум, мен, менум
- PROPN: Петровналы
- Egr
- ADV: сэтысянь
- Ela
- NOUN: дӧраысь
- PRON: Сыысь
- Gen
- ADJ: девятого, одиннадцатого, школьного
- NOUN: возраста, девушек, директора, инвалидность, километров, мая, месеча, месяцев, оформления, раза
- PRON: миян, менам, меня, нас, Сылэн, меам
- PROPN: Азии, Тайланда
- Ill
- ADP: доре, вылэ, сае, вылас, дорас
- NOUN: тундраа, ОПХ-а, кокъясэ, местэас, Армияа, ае, дедьсаде, местаясэ, местэам, муас
- PROPN: Нярьян-Маре
- Ine
- ADJ: Омскейын
- ADP: вылын, бӧрын, сайын, бӧрас
- ADV: Медбӧрын, бӧрын
- NOUN: тундраын, годын, Гожемъясын, гортын, колаын, колхозын, кӧрдорын, округын, семяын, слесарьын
- PROPN: Ляпинын
- Ins
- ADJ: первом
- ADV: унаэн
- NOUN: удовольствием, луннас, аресэн, гожемъяснас, кылэн, луннас-а
- NUM: квайтэнэсь
- Loc
- NOUN: шоке
- Nom
- ADJ: ас, второй, Берёзовский, Вто-, Выль, Ленинградскей, Нарьян-Марскей, Ненецкий, Ханты-Мансийскей, Юго-Восточной
- ADV: бӧр, водз, уна
- DET: Став, мӧд, такое, четвёртэй
- NOUN: во, ае, год, чой, чом, вок, коми, маме, бабушка, бригада
- NUM: сизим, кык, дас, куим, нёль, кӧкъямыс, сорок, три, тридцеть, тысяча
- PRON: ме, сыа, ми, кодке, мыйке, сы, Миян, ачыс, асланум, ачум
- PROPN: Из, Генриетта, Дань, Елена, Зӧт, Ляпиныс, Микул, Октябрь, Салехард, Саранпауль
- Prl
- DET: сизимед
- NUM: мӧдэд
- Ter
- ADV: дзикедз
Degree and Polarity
- Neg
- ADV: невозможнэ, ничего
- AUX-Fin: ог, из, оз, он
- PART: абу, не
- PRON: никучем, никодэс
- VERB-Fin: Он, из, оз
Verbal Features
- Imp
- VERB-Fin: Считай
- Ind
- AUX-Fin: вӧлі, ог, вӧліс, из, лоас, оз, лоо, он
- VERB: ветлі, мӧдэма, примитіс, рӧдитчи, рӧдитчылі, босьтіс, висьталэма, колэныс, кочегариті, приведитчис
- VERB-Fin: ветлі, мӧдэма, примитіс, рӧдитчи, рӧдитчылі, босьтіс, висьталэма, колэныс, кочегариті, приведитчис
- Fut
- AUX-Fin: лоас
- Past
- AUX-Fin: вӧлі, вӧліс
- VERB-Fin: ветлі, мӧдэма, примитіс, рӧдитчи, рӧдитчылі, босьтіс, висьталэма, кочегариті, приведитчис, рӧбиті
- VERB-Part: закончитэм
- Pres
- AUX-Fin: ог, оз, лоо, он
- VERB-Fin: колэныс, Он, велӧдча, велӧдчӧны, ветлала, ветлӧны, видзены, висены, вӧдитам, вӧрзям
- Nfh
- VERB-Fin: мӧдэма, висьталэма, Пургамема, волэма, воома, воссема, вурема, вӧрземаась, звӧнитчылэма, колэма
Pronouns, Determiners, Quantifiers
- Dem
- PRON: мӧд, сы, сэтшем, татшӧм, эта
- Prs
- ADJ: ас
- PRON: ме, сыа, миян, ми, менам, сы, меня, нас, сіес, Сылэн
- Card
- NUM: сизим, куим, десятой, кык, дас, сорок, Девять, двадцать, девятьсот, десяти
- Card,Ord
- NUM: кӧкъямыс
- Ord
- DET: мӧд, сизимед, четвёртэй
- NUM: мӧд, мӧдэд
- Yes
- PRON: ачыс, ачум
- 1
- AUX-Fin: ог
- PRON: ме, миян, ми, менам, меня, нас, асланум, аслум, меам, мен
- VERB-Fin: ветлі, рӧдитчи, рӧдитчылі, кочегариті, рӧбиті, эштӧді, велэдчи, велӧдча, велӧді, ветлала
- 2
- AUX-Fin: он
- VERB-Fin: Он, Считай, сдайтан
- 3
- AUX-Fin: вӧлі, вӧліс, из, лоас, оз, лоо
- PRON: сыа, сы, ачыс, сіес, Сылэн, Сыысь, сіе
- VERB-Fin: примитіс, босьтіс, висьталэма, колэныс, мӧдэма, приведитчис, рӧбитіс, Воліс, Пургамема, будет
- Plur
- NOUN: семьяанум
- Sing
- ADP: бӧрас, вылас, дорас
- NOUN: ае, маме, луннас, местэас, Ваыс, Супругаа, ае-маме, аелы, бабаясыс, берегсэ
- PRON: ставыс
- PROPN: Ляпиныс
Other Features
- Connegative
- Yes
- VERB: вермы, тӧд, бросайтчы, ветлоо, привлекайтныс, сдайт
- Yes
- Derivation
- Igdyrji
- VERB-Conv: вӧрзялыгдырйи
- Igdyrji
- Person[psor]
- 1
- NOUN: ае, маме, Супругаа, ае-маме, аелы, местэам, семьяанум
- 3
- ADP: бӧрас, вылас, дорас
- NOUN: луннас, местэас, Ваыс, бабаясыс, берегсэ, вӧйнаыс, вӧӧяссэ, гожемъяснас, луннас-а, луныс
- PRON: ставыс
- PROPN: Ляпиныс
- 1
Syntax
Auxiliary Verbs and Copula
- This corpus uses 6 lemmas as copulas (cop). Examples: вӧвны, быть, лоны, выйым, абу, вымым.
- This corpus uses 5 lemmas as auxiliaries (aux). Examples: оз, абу, oз, вӧвны, лоны.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN-Nom (2)
- VERB--PRON-Nom (3)
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Nom (16)
- VERB-Fin--PRON-Dat (1)
- VERB-Fin--PRON-Gen (2)
- VERB-Fin--PRON-Nom (16)
- obj
- VERB--NOUN-Acc (2)
- VERB--NOUN-Dat-ADP(по) (1)
- VERB--PRON-Acc (2)
- VERB-Fin--NOUN-Acc (12)
- VERB-Fin--NOUN-Nom (6)
- VERB-Fin--PRON-Acc (3)
- VERB-Inf--NOUN-Acc (1)
- VERB-Inf--PRON-Acc (1)
- iobj
- VERB-Fin--PRON-Dat (1)