UD Persian Seraji
Language: Persian (code: fa
Family: Indo-European, Iranian
This treebank has been part of Universal Dependencies since the UD v1.1 release.
The following people have contributed to making this treebank part of UD: Mojgan Seraji, Filip Ginter, Joakim Nivre.
License: CC BY-SA 4.0
Genre: news, fiction, medical, legal, social, spoken, nonfiction
Questions, comments? General annotation questions (either Persian-specific or cross-linguistic) can be raised in the main UD issue tracker. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed.
Annotation | Source |
Lemmas | annotated manually, natively in UD style |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually, natively in UD style |
Relations | annotated manually, natively in UD style |
The Persian Universal Dependency Treebank (Persian UD) is based on Uppsala Persian Dependency Treebank (UPDT). The conversion of the UPDT to the Universal Dependencies was performed semi-automatically with extensive manual checks and corrections.
The Persian Universal Dependency Treebank (Persian UD) is the converted version of the Uppsala Persian Dependency Treebank (UPDT) (Seraji, 2015). The treebank has its original annotation scheme based on Stanford Typed Dependencies (de Marneffe et al., 2006; de Marneffe and Manning, 2008). The scheme was extended for Persian to include the language specific syntactic relations that could not be covered by the primary scheme developed for English. The treebank consists of ca 6000 annotated and validated sentences of written texts with large domain variations, in terms of different genres (containing newspaper articles, fictions, technical descriptions, and documents about culture and art) and tokenization. The variations in the tokenization are due to the orthographic variations of compound words and fixed expressions in the language.
Apart from the universal annotation scheme and the general rules in the UD, the Persian UD and the UPDT differ further in tokenization. All words containing unsegmented clitics (pronominal and copula clitics) annotated with complex labels in the UPDT have been separated from the clitics and received distinct labels in the Persian UD.
The conversion of the UPDT to the Universal Dependencies has been carried out semi-automatically. In this process, we used a conversion script for reversing the head and dependent relations in the prepositional modifier (prep) and object of a preposition (pobj). Furthermore, we have used other scripts tailored for Persian to separate different types of clitics from their host. Subsequently we added different rules for rewriting the coarse-grained part-of-speech tags and the dependency labels. Morphological features were then mapped semi-automatically. In the current release, lemmas are added for a large number of tokens. This process is further done semi-automatically. The entire process has been manually validated.
The conversion of the UPDT to the Persian UD has been performed by Mojgan Seraji in collaboration with Filip Ginter. The annotations (PoS tags and dependency relations) were manually checked and corrected by Mojgan Seraji. The universal morphological features and lemmas were further added by Mojgan. The process has been carried out in consultation with Joakim Nivre. The original UPDT was also developed by Mojgan Seraji at Uppsala University. Mojgan is deeply thankful to Joakim Nivre and Carina Jahani for their consultations during the development of the UPDT.
Statistics of UD Persian Seraji
POS Tags
Case – Degree – Mood – Number – NumType – Person – Polarity – PronType – Reflex – Tense – VerbForm
acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – cc:preconj – ccomp – compound – compound:lvc – compound:prt – conj – cop – dep – det – det:predet – dislocated – fixed – flat – flat:foreign – mark – nmod – nmod:poss – nsubj – nsubj:nc – nsubj:pass – nummod – obj – obl – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 5997 sentences, 151625 tokens and 152920 syntactic words.
- This corpus contains 13133 tokens (9%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 2 types of words that contain both letters and punctuation. Examples: بود؛, میزد؛
- This corpus contains 1291 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 715 types of multi-word tokens. Examples: خودش، خودشان، خودم، مرا، معتقدند، بدین، برایش، خودت، دلم، اوست، چیست، کشورمان، ماست، پیداست، خودمان، پدرش، درین، بدان، سرش، مادرش، همسرم، پدرم، آخرش، آنهاست، امیدواریم، خانوادهاش، نامهات، ازین، امیدوارم، امیدوارند، بهش، دستش، دلش، همهاش، پایش، کارش، کجاست، آزادند، ارزشهاست، برخوردارند، توست، خانهاش، خداست، خودتان، رویش، زین، صدایش، قبلیاش، مدتهاست، منظورم.
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: PROPN, SYM
- This corpus contains 3 word types tagged as particles (PART): را, رو, و
- This corpus contains 42 lemmas tagged as pronouns (PRON): _, آن, آنرا, آنها, آنچه, آنها, او, ایشان, این, اینگونه, برخی, بسیاری, بعضی, تمام, تو, جنابعالی, حضرتعالی, خود, خویش, دیگر, دیگری, شما, ما, من, هرکدام, هرکس, هرکه, هم, همان, همدیگر, همه, همگان, همگی, همین, هیچکدام, هیچکس, هیچیک, هیچیک, وی, کی, یک, یکدیگر
- This corpus contains 25 lemmas tagged as determiners (DET): _, آن, این, اینهمه, اینگونه, برخی, بعض, بعضی, تعدادی, تمام, تنها, دیگر, سراسر, فلان, هر, همان, همه, همچین, همین, هیچگونه, چنان, چنین, چگونه, کدام, کلیه
- Out of the above, 11 lemmas occurred sometimes as PRON and sometimes as DET: _, آن, این, اینگونه, برخی, بعضی, تمام, دیگر, همان, همه, همین
- This corpus contains 20 lemmas tagged as auxiliaries (AUX): _, آورد#آور, است, باد, بایست#باید, برد#بر, بود, بود#باش, توان, توانست#توان, خواست#خواه, داشت#دار, زایید#زا, ساخت#ساز, شدید, هست, کرد, کرد#کن, گردید#گرد, گشت#گرد
- Out of the above, 15 lemmas occurred sometimes as AUX and sometimes as VERB: _, آورد#آور, است, باد, برد#بر, بود, بود#باش, توانست#توان, خواست#خواه, داشت#دار, ساخت#ساز, هست, کرد, کرد#کن, گشت#گرد
- There are 3 (de)verbal forms:
- Fin
- AUX: خواهد, خواهند, نخواهد, دارد, داریم, دارند, خواهم, دارم, خواهیم, نتوانند
- VERB: بتواند, بتوانند, بتوانم, بتوانیم
- Inf
- AUX: باید, نباید, بایستی, میباید, میبایست, بباید, میشود, نمیباید, نبایستی, نمیبایست
- Part
- ADJ: آمده, ساخته, یادشده, بسته, توقیفشده, ناخواسته, انجامشده, عقبافتاده, کاسته, کشته
- AUX: شده, بوده, شدهاند, نشده, بودهاند, نبوده, نشدهاند, گردیده, شدهایم, بودهایم
- VERB: کرده, داشته, داده, شده, گرفته, آمده, کردهاند, نوشته, دیده, بوده
Nominal Features
- Plur
- AUX: هستند, بودند, ند, میشوند, شدند, باشند, خواهند, شدهاند, شوند, اند
- AUX-Fin: خواهند, داریم, دارند, خواهیم, نتوانند, نخواهند, خواهید, دارن, نخواهیم
- AUX-Part: شدهاند, بودهاند, نشدهاند, شدهایم, بودهایم, اند, شدهاید, نگردیدهاند, ایم
- NOUN: انتخابات, افراد, مواد, کسانی, کشورهای, برنامههای, اصلاحات, حدود, مطبوعات, آثار
- PRON: ما, آنها, شان, شما, آنان, اینها, مان, ایشان, تان, اینان
- VERB: کنند, میکنند, دارند, کردند, بودند, کردهاند, کنیم, داشتند, میگویند, کردیم
- VERB-Fin: بتوانند, بتوانیم
- VERB-Part: کردهاند, دادهاند, داشتهاند, گرفتهاند, گفتهاند, نکردهاند, آمدهاند, بودهاند, شدهاند, نوشتهاند
- Sing
- ADJ-Part: آمده, ساخته, یادشده, بسته, توقیفشده, ناخواسته, انجامشده, عقبافتاده, کاسته, کشته
- AUX: است, بود, شد, شده, میشود, خواهد, نیست, شود, باشد, ست
- AUX-Fin: خواهد, نخواهد, دارد, خواهم, دارم, نخواهم, خواهی, داره, داری, داشت
- AUX-Part: شده, بوده, نشده, نبوده, گردیده, شدهای, شدهام, میشده, نگردیده, بودهام
- NOUN: ایران, سال, مردم, کشور, روز, کار, قرار, دست, انقلاب, تهران
- PRON: خود, آن, او, این, ش, من, وی, تو, م, اش
- VERB: است, کرد, گفت, دارد, میکند, بود, کرده, کند, داشت, داد
- VERB-Fin: بتواند, بتوانم
- VERB-Part: کرده, داشته, داده, شده, گرفته, آمده, نوشته, دیده, بوده, ساخته
- Loc
- ADV: بالا, اینجا, آنجا, پیش, بیرون, پایین, آنجا, زیر
- Tem
- ADV: بعد, پس, پیش, حالا, امروز, قبل, اکنون, کنون, همیشه, دیروز
- Voc
- NOUN: پروردگارا, الهی, حافظا
Degree and Polarity
- Cmp
- ADJ: بیشتر, بیش, کمتر, بیشتری, بهتر, بالاتر, برتر, بزرگتر, فراتر, نزدیکتر
- Pos
- ADJ: اسلامی, دیگر, سیاسی, دوم, گذشته, فرهنگی, جدید, چند, ملی, پیدا
- Sup
- ADJ: نخستین, بهترین, اولین, آخرین, بزرگترین, دومین, مهمترین, بیشترین, سومین, بالاترین
- Neg
- ADJ-Part: ناخواسته, نیاورده, ناخواستهای, نبوده, نجنگیده, نمرده, نیفزوده, پرداختنشده, کشفناشدهای
- ADV: هیچ, نه, غیر, هرگز, دیگر, خیر, هیچگاه
- AUX: نیست, نباید, نشده, نیستند, نخواهد, نباشد, نیستم, نشود, نبوده, نشدهاند
- AUX-Fin: نخواهد, نتوانند, نخواهم, نخواهند, نخواهی, نخواهیم
- AUX-Inf: نباید, نبایستی, نمیبایست, نمیشود
- AUX-Part: نشده, نبوده, نشدهاند, نگردیده, نگردیدهاند
- VERB: نیست, نداشته, ندارند, نکرده, نمیکند, نمیتواند, نمیکنند, نمیدانستند, نمیتوانند, نمیدانم
- VERB-Part: نداشته, نکرده, نیامده, نداده, نکردهاند, نرسیده, نشده, نتوانسته, نمانده, نداشتهاند
Verbal Features
- Imp
- AUX: باش
- VERB: کن, گو, بگو, بگیر, بده, ببین, برو, بیا, بدانید, بزن
- Sub
- AUX: شود, باشد, باشند, بشود, شوند, نباشد, گردد, نشود, بشوند, باشید
- AUX-Fin: نتوانند
- VERB: کنند, کند, باشد, کنیم, کنم, دهد, باشند, کنید, دهند, گیرد
- VERB-Fin: بتواند, بتوانند, بتوانم, بتوانیم
- Fut
- AUX-Fin: خواهد, خواهند, نخواهد, خواهم, خواهیم, نخواهم, نخواهند, خواهی, خواهید, نخواهی
- Past
- AUX: بود, شد, بودند, میشد, شدند, نبود, بودم, نشد, میشدند, نمیشد
- AUX-Fin: داشت
- VERB: کرد, گفت, بود, داشت, کردند, داد, افزود, گرفت, بودند, میکرد
- Pres
- AUX: است, میشود, نیست, شود, باشد, هستند, ست, ند, میشوند, باشند
- AUX-Fin: دارد, داریم, دارند, دارم, نتوانند, داره, دارن, داری, میتوان
- VERB: است, دارد, میکند, کنند, کند, میکنند, دارند, میدهد, باشد, میگوید
- VERB-Fin: بتواند, بتوانند, بتوانم, بتوانیم
Pronouns, Determiners, Quantifiers
- Dem
- PRON: آن, این, آنها, آنان, اینها, همین, آنرا, همان, اینان, دان
- Ind
- PRON: بعضی, برخی, دیگران, هرکس, یک, دیگری, بعضیها, بسیاری, تکتک, دیگر
- Int
- ADV: چه, چرا, چی, چگونه, کجا, مگر, چقدر, چطور, کی, چهطور
- PRON: هرکه, کی
- Neg
- PRON: هیچکدام, هیچکس, هیچیک, هیچیک
- Prs
- PRON: خود, او, ما, ش, من, وی, تو, شان, م, شما
- Rcp
- PRON: هم, یکدیگر, همدیگر
- Rel
- PRON: آنچه
- Tot
- PRON: همه, همهٔ, همگی, همگان, همه, تمام, هرکدام
- Card
- NUM: یک, دو, یکی, هزار, سه, میلیون, ۲, چهار, ۵, ۳
- Yes
- PRON: خود, خودم, خودت, خودمو, خویشتن
- 1
- AUX: م, هستیم, بودم, یم, نیستم, هستم, داریم, خواهم, شدم, شدیم
- AUX-Fin: داریم, خواهم, دارم, خواهیم, نخواهم, نخواهیم
- AUX-Part: شدهایم, بودهایم, شدهام, بودهام, میشدهام, ایم
- PRON: ما, من, م, مان, ام, منم, خودم, خودمو, منِ
- VERB: میکنم, کنیم, کردیم, کنم, کردم, میکنیم, دارم, باشیم, داریم, گفتم
- VERB-Fin: بتوانم, بتوانیم
- VERB-Part: کردهایم, کردهام, آمدهام, آمدهایم, دیدهایم, خواندهام, دادهام, دیدهام, نکردهام, نیامدهایم
- 2
- AUX: هستی, باشید, نیستی, باش, هستید, ای, ید, باشی, خواهی, شدهای
- AUX-Fin: خواهی, خواهید, داری, نخواهی
- AUX-Part: شدهای, بودهای, شدهاید
- PRON: تو, شما, ت, تان, ات, جنابعالی, شماها, خود, خودت
- VERB: کنید, کن, گو, بگو, دارید, کنی, کردید, ببینید, میتوانید, کردی
- VERB-Part: شنیدهاید, کردهای, کردهاید, نوشتهای, دادهای, ساختهای, آمدهای, آمدهاید, افکندهای, بودهاید
- 3
- ADJ-Part: آمده, ساخته, یادشده, بسته, توقیفشده, ناخواسته, انجامشده, عقبافتاده, کاسته, کشته
- AUX: است, بود, شد, شده, میشود, خواهد, نیست, شود, باشد, هستند
- AUX-Fin: خواهد, خواهند, نخواهد, دارد, دارند, نتوانند, نخواهند, داره, دارن, داشت
- AUX-Part: شده, بوده, شدهاند, نشده, بودهاند, نبوده, نشدهاند, گردیده, میشده, نگردیده
- PRON: خود, او, ش, وی, شان, اش, ایشان, خویش, حضرتعالی, و
- VERB: است, کرد, گفت, دارد, میکند, بود, کرده, کنند, کند, میکنند
- VERB-Fin: بتواند, بتوانند
- VERB-Part: کرده, داشته, داده, شده, گرفته, آمده, کردهاند, نوشته, دیده, بوده
Other Features
Auxiliary Verbs and Copula
- This corpus uses 17 lemmas as copulas (cop). Examples: کرد#کن، است، بود#باش، هست، بود، _، گشت#گرد، کرد، گردید#گرد، آورد#آور، باد، برد#بر، داشت#دار، زایید#زا، ساخت#ساز، شدید، مجدد.
- This corpus uses 12 lemmas as auxiliaries (aux). Examples: است، خواست#خواه، بایست#باید، بود#باش، توانست#توان، بود، توان، _، داشت#دار، کرد#کن، آمد#آ، رفت#رو.
- This corpus uses 4 lemmas as passive auxiliaries (aux:pass). Examples: کرد#کن، بود#باش، کرد، گشت#گرد.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (3762)
- VERB--NOUN-ADP(را) (10)
- VERB--PRON (795)
- VERB--PRON-ADP(را) (1)
- VERB-Part--NOUN (820)
- VERB-Part--PRON (117)
- VERB-Part--PRON-ADP(را) (1)
- obj
- VERB--NOUN (1037)
- VERB--NOUN-ADP(را) (1676)
- VERB--NOUN-ADP(را)-ADP(را) (1)
- VERB--NOUN-ADP(رو) (2)
- VERB--PRON (30)
- VERB--PRON-ADP(را) (258)
- VERB-Part--NOUN (219)
- VERB-Part--NOUN-ADP(را) (330)
- VERB-Part--PRON (6)
- VERB-Part--PRON-ADP(را) (35)
Verbs with Reflexive Core Objects
- This corpus contains 13 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: کرد#کن خود، دانست#دان خود، _ خود، داد#ده خود، زد#زن خود، رساند#رسان خود، رسانید#رسان خود، بست#بند خود، حلیم خود، دید#بین خود، دیدار خود، پوشاند#پوشان خود، کشید#کش خود
Relations Overview
- This corpus uses 10 relation subtypes: acl:relcl, aux:pass, cc:preconj, compound:lvc, compound:prt, det:predet, flat:foreign, nmod:poss, nsubj:nc, nsubj:pass
- The following 1 main types are not used alone, they are always subtyped: acl
- The following 9 relation types are not used in this corpus at all: iobj, csubj, expl, discourse, clf, list, orphan, goeswith, reparandum