UD Afrikaans AfriBooms
Language: Afrikaans (code: af
)
Family: Indo-European, Germanic
This treebank has been part of Universal Dependencies since the UD v2.1 release.
The following people have contributed to making this treebank part of UD: Peter Dirix, Liesbeth Augustinus, Daniel van Niekerk.
Repository: UD_Afrikaans-AfriBooms
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: CC BY-SA 4.0
Genre: legal, nonfiction
Questions, comments? General annotation questions (either Afrikaans-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [peter • dirix (æt) kuleuven • be, liesbeth • augustinus (æt) kuleuven • be]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
UD Afrikaans-AfriBooms is a conversion of the AfriBooms Dependency Treebank, originally annotated with a simplified PoS set and dependency relations according to a subset of the Stanford tag set. The corpus consists of public government documents.
UD Afrikaans-AfriBooms is a conversion AfriBooms Dependency Treebank, which is based on the Afrikaans section of the NCHLT Annotated Text Corpora and is available from the South African Language Resource Management Agency, Potchefstroom. We will be working on manually verifying the treebank.
Size of the differents parts:
- train size = 1315 sentences
- dev size = 194 sentences
- test size = 425 sentences
Acknowledgments
The new conversion has been performed by Peter Dirix and Liesbeth Augustinus at the University of Leuven and by Daniel van Niekerk at the Potchefstroom campus of North West University.
Statistics of UD Afrikaans AfriBooms
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
AdjType – AdpType – Case – Definite – Degree – Number – PartType – Person – Poss – PronType – Reflex – Subcat – Tense – VerbForm – VerbType
Relations
advmod – amod – appos – aux – aux:pass – case – cc – ccomp – compound:prt – conj – cop – csubj – dep – det – flat – iobj – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – punct – root – xcomp
Tokenization and Word Segmentation
- This corpus contains 1934 sentences and 49276 tokens.
- This corpus contains 4514 tokens (9%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 407 types of words that contain both letters and punctuation. Examples: 'n, Suid-Afrika, Suid-Afrikaanse, Suid-Afrikaners, Direkteur-generaal, 6-opgawe, top-prioriteite, werke-program, Mariene-, R-9, bv., finansiële, Afrika-Unie, Algemene-Onderwys-en-Opleidingsband, OKD-kantoor, Suider-Afrikaanse, Tale-leerareaverklaring, hoër, maatreëls, nie-seksistiese, rekreasie-invoerpermit, veeartseny-invoerpermit, weerspieël, Midde-Ooste, Regeringsdienste-webtuiste, SAID-kantoor, Wêreldbeker-sokkertoernooi, breë, e-pos, leer-, makro-ekonomiese, metro's, nie-rassige, ná, onderwys-, -inligtingstelsel, -voorwaardes, 12-riglyne, 2004-verkiesing, 6-opgawes, Anglo-, Comore-eilande, DEA&T, Dienste-inligting, ID-nommer, IRP5-sertifikaat, Inter-Ministeriële, MIV-infeksies, Noord-Amerika, PDF-dokumente
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: INTJ
- This corpus contains 5 word types tagged as particles (PART): Die, nie, s'n, se, te
- This corpus contains 98 lemmas tagged as pronouns (PRON): alles, almal, ander, bogenoemde, daar, daaraan, daarbenewens, daarby, daardeur, daarin, daarmee, daarna, daarom, daaroor, daarop, daarteen, daartoe, daarvan, daarvoor, dat, dergelik, diegene, dieselfde, dit, ek, elders, elk, elkeen, enig, enige, enigeen, enigiemand, haar, haarself, hierbenewens, hierbo, hierby, hierdeur, hierin, hiermee, hieronder, hieroor, hierop, hiervan, hiervolgens, hoe, hoekom, hoeveel, hom, homself, hul, hulle, hulself, hy, iemand, iets, jou, jouself, julle, jy, mekaar, my, myself, niemand, niks, ons, onsself, self, so, sodanig, sy, tal, toe, u, waar, waaraan, waarby, waardeur, waarheen, waarin, waarmee, waarna, waarom, waaronder, waaroor, waarop, waarteen, waartoe, waartydens, waaruit, waarvan, waarvolgens, waarvoor, wanneer, wannneer, wat, watter, wie
- This corpus contains 30 lemmas tagged as determiners (DET): 'n, al, baie, beide, bietjie, daar, daardie, de, die, dien, dié, dié, enkel, etlike, hierdie, laaste, magdom, meer, menige, miljoen, min, paar, party, sodanig, sommige, soveel, sulke, tal, tweeduisend, veel
- Out of the above, 3 lemmas occurred sometimes as PRON and sometimes as DET: daar, sodanig, tal
- This corpus contains 29 lemmas tagged as auxiliaries (AUX): bedra, begin, behoort, beloop, bly, blyk, dan, durf, gaan, help, het, hoef, is, kan, kom, laat, leer, ly, lyk, mag, moenie, moet, probeer, raak, sal, voel, wees, wil, word
- Out of the above, 12 lemmas occurred sometimes as AUX and sometimes as VERB: begin, behoort, bly, gaan, help, het, kom, laat, leer, ly, raak, voel
- There are 3 (de)verbal forms:
- Fin
- AUX: is, was, moes, sou, kon, geword, geraak, geblyk, gelyk, gewees
- Fin,Inf
- AUX: word, is, sal, het, moet, kan, wees, wil, mag, behoort
- VERB: doen, maak, gebruik, het, verbeter, verseker, stel, betaal, verskaf, werk
- Part
- VERB: gemaak, gedoen, gestel, uitgereik, geneem, geregistreer, ingedien, ingevul, gebaseer, ingevoer
Nominal Features
- Plur
- NOUN: mense, leerders, dienste, opsigte, Suid-Afrikaners, pogings, lande, sake, uitdagings, dokumente
- PRON: ons, hulle, hul, onsself, julle, hulself
- Sing
- NOUN: jaar, regering, aansoek, inligting, land, departement, staat, toegang, webwerf, persoon
- PRON: dit, jy, jou, ek, sy, hy, my, haar, u, self
- PROPN: Suid-Afrika, Afrika, Februarie, Madiba, Crime, Mandela, of, Bafana, Maart, Tambo
- Acc
- PRON: jou, my, haar, hom
- Acc,Nom
- PRON: ons, hulle, julle
- Nom
- ADJ: ander, nasionale, Suid-Afrikaanse, openbare, maatskaplike, voorlopige, nuwe, plaaslike, ekonomiese, groot
- PRON: dit, jy, ek, hy, sy, u
- Def
- DET: die, de, dien
- Ind
- DET: 'n
Degree and Polarity
- Cmp
- ADJ: beter, hoër, groter, ouer, sterker, hoër, laer, minder, jonger, langer
- ADV: verder, beter, later, langer, vinniger, harder, minder, vroeër, sterker, armer
- Dim
- NOUN: koekies, knoppie, venstertjie, Korting-blokkie, Soekvenstertjie, deeltjie, koekie, treetjies, tydjie
- Pos
- ADJ: ander, nasionale, Suid-Afrikaanse, openbare, maatskaplike, voorlopige, nuwe, plaaslike, ekonomiese, groot
- ADV: nie, ook, in, saam, nog, uit, aan, egter, reeds, slegs
- Sup
- ADJ: naaste, beste, grootste, belangrikste, hoogste, enigste, ergste, meeste, doeltreffendste, jongste
- ADV: mees, ergste, minste, meeste, sterkste, swaarste
Verbal Features
- Past
- AUX-Fin: is, was, moes, sou, kon, geword, geraak, geblyk, gelyk, gewees
- VERB-Part: gemaak, gedoen, gestel, uitgereik, geneem, geregistreer, ingedien, ingevul, gebaseer, ingevoer
- Pres
- AUX-Fin,Inf: word, is, sal, het, moet, kan, wees, wil, mag, behoort
- VERB-Fin,Inf: doen, maak, gebruik, het, verbeter, verseker, stel, betaal, verskaf, werk
Pronouns, Determiners, Quantifiers
- Art
- DET: die, 'n, de, dien
- Dem
- DET: hierdie, daardie, dié, sodanige, sulke, daar, dié, sodanig
- Ind
- DET: alle, meer, al, baie, paar, sommige, laaste, soveel, talle, min
- PRON: enige, daar, almal, elke, diegene, alles, ander, iemand, elk, enigiemand
- Int
- PRON: hoe, wat, Wie, Watter, Hoekom, Waar, Waarom, Wanneer, waaroor
- Prs
- PRON: ons, dit, jy, hulle, jou, ek, sy, hul, hy, my
- Rcp
- PRON: mekaar
- Rel
- PRON: wat, wanneer, waar, daarvan, watter, hoe, waarop, daartoe, wie, waarin
- Yes
- PRON: ons, jou, hul, sy, hulle, my, haar, julle, u
- Yes
- PRON: onsself, self, ons, hulle, hom, haarself, homself, hulself, jouself, myself
- 1
- PRON: ons, ek, my, onsself, myself
- 2
- PRON: jy, jou, u, julle, jouself
- 3
- PRON: dit, hulle, sy, hul, hy, haar, self, hom, haarself, homself
Other Features
- AdjType
- Attr
- ADJ: ander, nasionale, Suid-Afrikaanse, openbare, maatskaplike, voorlopige, nuwe, plaaslike, ekonomiese, groot
- Pred
- ADJ: nodig, moontlik, aanspreeklik, belangrik, Buitengewoon, trots, verantwoordelik, beskikbaar, seker, gereed
- Attr
- AdpType
- Prep
- ADP: van, om, in, vir, op, met, aan, deur, tot, by
- Prep
- PartType
- Gen
- PART: se, s'n
- Inf
- PART: te, Die
- Neg
- PART: nie
- Gen
- Subcat
- Intr
- VERB-Fin,Inf: werk, voortgaan, gaan, het, maak, tree, verskyn, reageer, staan, val
- VERB-Part: gelei, toegeneem, afgeneem, gekom, plaasgevind, gehelp, getree, saamgewerk, afgelaai, gebring
- Prep
- VERB-Fin,Inf: voldoen, verwys, kondig, beveel
- Tran
- VERB-Fin,Inf: doen, gebruik, maak, verbeter, verseker, stel, het, verskaf, betaal, bereik
- VERB-Part: gemaak, gedoen, gestel, uitgereik, geneem, geregistreer, ingedien, ingevul, gebaseer, gegee
- Intr
- VerbType
- Aux
- AUX-Fin,Inf: het, laat, help, kom, probeer, sal, bly, begin, leer
- Cop
- AUX-Fin: was, geword, geraak, geblyk, gelyk, gewees
- AUX-Fin,Inf: is, wees, word, bly, raak, voel, bedra, beloop, blyk, ly
- Mod
- AUX-Fin: moes, sou, kon, wou
- AUX-Fin,Inf: sal, moet, kan, wil, mag, behoort, gaan, hoef, durf, moenie
- Pas
- AUX-Fin: is, wees
- AUX-Fin,Inf: word, wees
- Aux
Syntax
Auxiliary Verbs and Copula
- This corpus uses 34 lemmas as copulas (cop). Examples: is, wees, word, bly, raak, behulpsaam, voel, bewus, blyk, lyk, aanspreeklik, afdwingbaar, bang, beloop, beskik, beskikbaar, betrek, bykomend, byster, duidelik, gelyklopend, gepaardgaan, ly, nodig, onseker, onvas, oorkoepel, oud, pas, teenwoordig, tevrede, trots, verifieerbaar, verskuldig.
- This corpus uses 43 lemmas as auxiliaries (aux). Examples: sal, het, moet, kan, wil, mag, behoort, laat, gaan, hoef, kom, bly, bystaan, hê, probeer, aanhou, baseer, begin, bereik, besluit, beteken, bewerkstellig, bring, daal, dan, deelneem, doen, gebruik, instel, leer, lei, moenie, neem, registreer, talm, toets, verbeter, verkry, verskaf, verskil, voorkom, voortspruit, werk.
- This corpus uses 3 lemmas as passive auxiliaries (aux:pass). Examples: word, is, wees.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin,Inf--NOUN (630)
- VERB-Fin,Inf--PRON (538)
- VERB-Fin,Inf--PRON-ADP(aan) (2)
- VERB-Fin,Inf--PRON-ADP(by) (1)
- VERB-Fin,Inf--PRON-ADP(in) (1)
- VERB-Fin,Inf--PRON-ADP(ingevolge) (1)
- VERB-Fin,Inf--PRON-ADP(namens) (1)
- VERB-Fin,Inf--PRON-ADP(oor) (3)
- VERB-Fin,Inf--PRON-ADP(van) (4)
- VERB-Fin,Inf--PRON-Acc (2)
- VERB-Fin,Inf--PRON-Acc,Nom (437)
- VERB-Fin,Inf--PRON-Nom (347)
- VERB-Part--NOUN (134)
- VERB-Part--PRON (167)
- VERB-Part--PRON-ADP(oor) (1)
- VERB-Part--PRON-ADP(van) (1)
- VERB-Part--PRON-Acc,Nom (76)
- VERB-Part--PRON-Nom (42)
- obj
- VERB-Fin,Inf--NOUN (1928)
- VERB-Fin,Inf--PRON (37)
- VERB-Fin,Inf--PRON-Acc (13)
- VERB-Fin,Inf--PRON-Acc,Nom (51)
- VERB-Fin,Inf--PRON-Nom (80)
- VERB-Part--NOUN (258)
- VERB-Part--PRON (6)
- VERB-Part--PRON-Acc,Nom (9)
- VERB-Part--PRON-Nom (4)
- iobj
- VERB-Fin,Inf--NOUN-ADP(aan) (43)
- VERB-Part--NOUN-ADP(aan) (16)
Verbs with Reflexive Core Objects
- This corpus contains 13 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: afvra onsself, verbind onsself, druk ons, flous onsself, herverbind hulle, herverbind onsself, onderhou homself, skaar ons, sluit hulle, stel ons, toewy myself, verbind hom, verbind ons
- Out of those, 1 lemmas occurred more than once, but never without a reflexive dependent. Examples: afvra
Relations Overview
- This corpus uses 3 relation subtypes: aux:pass, compound:prt, nsubj:pass
- The following 1 main types are not used alone, they are always subtyped: compound
- The following 13 relation types are not used in this corpus at all: vocative, expl, dislocated, advcl, discourse, acl, clf, fixed, list, parataxis, orphan, goeswith, reparandum