UD Galician TreeGal
Language: Galician (code: gl
)
Family: Indo-European, Romance
This treebank has been part of Universal Dependencies since the UD v1.4 release.
The following people have contributed to making this treebank part of UD: Marcos Garcia.
Repository: UD_Galician-TreeGal
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: LGPLLR
Genre: news
Questions, comments? General annotation questions (either Galician-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [marcos • garcia • gonzalez (æt) udc • gal]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually, natively in UD style |
UPOS | annotated manually, natively in UD style |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Relations | annotated manually, natively in UD style |
Description
The Galician-TreeGal is a treebank for Galician developed at LyS Group (Universidade da Coruña).
The resource derives from a subset (called xeral) of the XIADA corpus (v2.6), created at the Centro Ramón Piñeiro para a Investigación en Humanidades (http://corpus.cirp.es/xiada/).
All the information except the syntactic one was semi-automatically converted to UD from the original resource. The dependency labels were assigned using cross-lingual parsing techniques, and then manually corrected by a linguist (see the references for more information). At the end of this process, several corrections were carried out in order to agree with the UD guidelines.
Galician-TreeGal v0.41 contains 1000 sentences of the xeral corpus (~25k tokens), and it is divided 20-40-40 splits (train-dev-test).
Acknowledgments
-
Garcia, Marcos, 2016. Universal Dependencies Guidelines for the Galician-TreeGal Treebank. Technical Report. LyS Group, Universidade da Coruña.
-
Garcia, Marcos, Carlos Gómez-Rodríguez and Miguel A. Alonso, 2018. New treebank or repurposed? On the feasibility of cross-lingual parsing of Romance languages with Universal Dependencies. Natural Language Engineering, 24(1): 91-122.
-
Rojo, Guillermo, Marisol López Martínez, Eva Domínguez Noya and Fco. Mario Barcala, 2015. Corpus de adestramento do Etiquetador/Lematizador do Galego Actual (XIADA), v2.6. Centro Ramón Piñeiro para a Investigación en Humanidades.
Statistics of UD Galician TreeGal
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
AdpType – Case – Clitic – Definite – Degree – Gender – Mood – Number – Number[psor] – NumType – Person – Polarity – Poss – PronType – Tense – VerbForm
Relations
acl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – compound – conj – cop – csubj – dep – det – discourse – expl – fixed – flat – flat:foreign – flat:name – iobj – list – mark – nmod – nsubj – nsubj:pass – nummod – obj – obl – orphan – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 1000 sentences, 23479 tokens and 25548 syntactic words.
- This corpus contains 2682 tokens (11%) that are not followed by a space.
- This corpus contains 1 types of words with spaces. Examples: 687 614 874
- This corpus contains 32 types of words that contain both letters and punctuation. Examples: PSdeG-PSOE, etc., Costa-Gavras, (in)cultura, BNG-PSOE, Barros', CIG-ensino, Campos', Cunqueiro:, D., Dulcinea,, F., Galego-portuguesa, Oops..., P., PSOE-BNG, Qué!, R., S., Silencio,, again!, best-sellers, centro-esquerda, cow-boy, d'Estudis, económico-financeira, galego-portugués-brasileiro, manuelmaria@as-pg.com, sex-shop, www.bng-galiza.org, www.novoestatuto.com, xurídico-público
- This corpus contains 2059 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 301 types of multi-word tokens. Examples: do, da, no, na, dos, ao, á, das, polo, nas, coa, nos, co, dun, pola, ás, aos, dunha, nunha, cos, coas, nun, polos, cun, deste, neste, nesta, polas, desta, darlle, delas, dese, cunha, doutras, nesa, trátase, dela, deles, destes, doutros, entenderse, nese, 'García, Barros', Constrúese, Gustaríame, corresponderalle, coñecelo, cúmprense, daqueles.
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: PART
- This corpus contains 40 lemmas tagged as pronouns (PRON): algo, alguén, algún, ambos, aquel, cal, canto, che, demais, el, ese, este, eu, lle, me, mesmo, min, moito, nada, ninguén, ningún, nos, noso, nós, o, outro, pouco, propio, que, quen, se, seu, si, tal, tanto, te, ti, todo, un, vostede
- This corpus contains 34 lemmas tagged as determiners (DET): algún, ambos, aquel, cada, calquer, calquera, canto, certo, cuxo, demais, demasiado, determinado, el, ese, este, la, los, mesmo, meu, moito, ningún, noso, o, outras, outro, pouco, propio, que, seu, tal, tanto, todo, un, varios
- Out of the above, 22 lemmas occurred sometimes as PRON and sometimes as DET: algún, ambos, aquel, canto, demais, el, ese, este, mesmo, moito, ningún, noso, o, outro, pouco, propio, que, seu, tal, tanto, todo, un
- This corpus contains 25 lemmas tagged as auxiliaries (AUX): acabar, acertar, adoitar, considerar, deber, deixar, eis, estar, haber, ir, levar, parecer, pasar, permanecer, poder, quedar, querer, resultar, seguir, semellar, ser, ter, tratar, ver, vir
- Out of the above, 22 lemmas occurred sometimes as AUX and sometimes as VERB: acabar, considerar, deber, deixar, estar, haber, ir, levar, parecer, pasar, permanecer, poder, quedar, querer, resultar, seguir, semellar, ser, ter, tratar, ver, vir
- There are 4 (de)verbal forms:
- Fin
- AUX: é, foi, está, son, pode, están, era, sería, vai, será
- VERB: hai, ten, teñen, fai, fixo, quere, considera, di, dá, fan
- Ger
- AUX: sendo, podendo
- VERB: afirmando, partindo, considerando, dando, pagando, recoñecendo, agardando, apuntando, chegando, cobrando
- Inf
- AUX: ser, poder, estar, ter, acabar, ir, parecer, quedar, seren, sermos
- VERB: facer, ter, ver, falar, dar, pasar, traballar, seguir, dicir, gañar
- Part
- AUX: considerado
- VERB: debido, recibida, baseado, dirixida, elaborado, elixido, afectado, apresentado, atendidos, chamado
Nominal Features
- Com
- ADJ: obstante, embargante, best, coincidente, diferentes, Simple, Visitábel, bípedes, capaz, conscientes
- NOUN: nacionalistas, socialistas, galeguista, guitarristas, prol, xornalistas, Babecas, Finalistas, alcalde, antípoda
- NUM: 13.000, cen
- PRON: se, nos, que, me, quen, lle, eu, nós, vostede, alguén
- Fem
- ADJ: galega, política, europea, nova, social, Franca, actual, cultural, laboral, mellor
- DET: a, as, unha, súa, esta, la, nosa, súas, esa, outra
- NOUN: cidade, música, parte, obra, vida, proposta, arte, empresa, obras, lingua
- NUM: primeira, dúas, segunda, catro, tres, cinco, terceira, 12, 15.000, 17
- PRON: que, a, lle, as, unha, elas, ela, esta, na, ningunha
- PROPN: Mercedes, Núñez, Unión, UE, Zona, Bases, Xunta, Constitución, Galiza, Academia
- VERB-Part: recibida, dirixida, destinadas, feita, feitas, prometidas, realizada, vencellada, Configurada, Nacida
- Masc
- ADJ: novo, galego, español, galegos, socialista, constitucional, difícil, gran, mellor, claro
- AUX-Part: considerado
- DET: o, os, un, lo, seu, este, seus, todo, todos, ese
- NOUN: anos, traballo, goberno, mundo, tempo, dereito, proxecto, país, medios, grupo
- NUM: dous, un, primeiro, catro, dez, 1990, 25, cinco, quince, tres
- PRON: que, o, lle, lo, os, todo, un, algo, algúns, lles
- PROPN: BNG, Estado, Manuel, Xosé, Miguel, Anxo, Carlos, Estatuto, González, Francisco
- VERB-Part: debido, baseado, elaborado, elixido, afectado, apresentado, atendidos, chamado, dirixido, empeñados
- Neut
- PRON: iso, isto
- Plur
- ADJ: galegos, diferentes, distintos, maiores, últimos, autonómicas, grandes, económicos, internacionais, novos
- AUX: son, están, poden, estamos, foron, serán, van, deben, eran, estaban
- AUX-Fin: son, están, poden, estamos, foron, serán, van, deben, eran, estaban
- AUX-Inf: seren, sermos
- DET: os, as, seus, súas, todos, outros, los, outras, estes, uns
- NOUN: anos, socialistas, medios, obras, nacionalistas, persoas, días, eleccións, veces, galegos
- NUM: catro, dous, tres, dúas, dez, cinco, quince, oito, 300, 52
- PRON: que, nos, os, lles, algúns, as, outros, elas, nós, eles
- PROPN: Bases, Premios, Estados, Mateo, Mestre, 2004, Consellos, Irmandades, Letras, Oscars
- VERB-Fin: teñen, fan, temos, existen, chegaron, dan, fagan, fixemos, integran, queremos
- VERB-Inf: teren, chegaren, colaboraren, compartiren, completarmos, decidiren, desviaren, formaren, forzaren, integrarmos
- VERB-Part: atendidos, destinadas, empeñados, feitas, obrigados, prometidas, Decididos, afectados, apresentadas, asinados
- Sing
- ADJ: galega, novo, galego, español, mellor, política, social, xeral, actual, difícil
- AUX-Fin: é, foi, está, pode, era, sería, vai, será, ten, sexa
- AUX-Part: considerado
- DET: o, a, un, unha, súa, lo, seu, esta, este, la
- NOUN: traballo, goberno, cidade, música, mundo, tempo, dereito, proxecto, país, parte
- NUM: primeira, un, primeiro, segunda, 1990, 1917, 1999, 2018, 25, 28
- PRON: que, o, lle, a, me, iso, lo, todo, quen, un
- PROPN: BNG, Estado, Estatuto, Prestige, PP, Quixote, Consello, Unión, Galiza, PSOE
- VERB-Fin: hai, ten, fai, fixo, quere, considera, di, dá, semella, afirma
- VERB-Part: debido, recibida, baseado, dirixida, elaborado, elixido, afectado, apresentado, chamado, dirixido
- Acc
- PRON: o, nos, lo, a, as, os, me, no, los, na
- Dat
- PRON: lle, nos, lles, me, che
- Nom
- PRON: eu, el, vostede, nós, ti, eles
- Def
- DET: o, a, os, as, lo, la, los, las
- PRON: a
- Ind
- DET: un, unha, uns, unhas
Degree and Polarity
- Cmp
- ADJ: mellor, maior, maiores, peor, meirande, mellores, menor
- Sup
- ADJ: máximo, altísimo, importantísima, máxima
- Neg
- ADP: sen
- ADV: non, nunca, tampouco, Nin, endexamais
- CCONJ: nin
Verbal Features
- Cnd,Ind
- AUX: sería, debería, podería, habería, poderían, tería, deberiamos, permanecería
- AUX-Fin: sería, debería, podería, habería, poderían, tería, permanecería
- VERB-Fin: gustaría, tería, Diría, Quedaría, correspondería, empobrecería, escluiría, faltaría, gostaría, instalaría
- Imp
- VERB-Fin: Explica, Imaxina
- Ind
- AUX-Fin: é, foi, está, son, pode, están, era, vai, será, poden
- VERB-Fin: hai, ten, teñen, fai, fixo, quere, considera, di, dá, fan
- Sub
- AUX-Fin: sexa, fose, sexan, estea, estivese, poidan, teña, estean, for, fosen
- VERB-Fin: sexa, fagan, diga, cumpran, faga, fixese, haxa, inclúa, mostren, pese
- Fut
- AUX-Fin: será, serán, haberá, poderá, poderán, Permanecerá, acabarán, for, irá, pasarán
- VERB-Fin: terá, contará, corresponderá, decidirá, ocupará, recollerá, terán, Atribuirá, Lograrán, Pasarán
- Imp
- AUX-Fin: era, estaba, ía, eran, estaban, podía, Podiamos, debían, podia, tiña
- VERB-Fin: había, tiña, sabía, facía, quería, daba, defendiamos, dicía, escribía, falaba
- Past
- AUX-Fin: foi, foron, fose, estivese, estivo, puido, viñeron, estiveron, fosen, puidemos
- VERB-Fin: fixo, deu, dixo, houbo, publicou, tivo, chegaron, conseguiu, fixemos, comezou
- Pqp
- AUX-Fin: fora, deberan, foran
- VERB-Fin: quixera, cometeran, comunicara, escribiran, houbera, reflectira, rematara, valera, vira
- Pres
- AUX-Fin: é, está, son, pode, están, vai, poden, ten, sexa, hai
- VERB-Fin: hai, ten, teñen, fai, quere, considera, di, dá, fan, semella
Pronouns, Determiners, Quantifiers
- Art
- DET: o, a, os, as, un, unha, lo, la, los, uns
- PRON: o, a, os, as
- Dem
- DET: esta, este, ese, esa, estes, estas, aqueles, esas, eses, aquel
- PRON: iso, isto, este, estes, esta, aqueles, Ese, aquel, aquela, esa
- Ind
- DET: todo, todos, mesmo, outra, outro, outros, outras, toda, cada, calquera
- PRON: algo, todo, nada, un, algúns, unha, outros, outro, alguén, mesmo
- Int
- ADV: como, cómo, onde
- DET: que
- PRON: que, Cal, Quen, canto, Cales, Cantos
- Prs
- DET: súa, seu, seus, nosa, súas, noso, meu, miña, nosos, meus
- PRON: se, lle, nos, o, me, lo, lles, a, elas, nós
- Rel
- ADV: como, cando, onde
- DET: cantas, cuxa, cuxas
- PRON: que, quen, cales, cantos
- Card
- NUM: catro, dous, tres, un, dúas, cinco, dez, 1990, 25, 36
- Ord
- NUM: primeira, primeiro, segunda, II, IX, terceira, terceiro, V, primeiras, primeiros
- Yes
- DET: súa, seu, seus, nosa, súas, noso, meu, miña, nosos, meus
- PRON: seu, nosa
- 1
- AUX: estamos, somos, estou, teño, vou, Podiamos, Sigo, deberiamos, imos, podemos
- AUX-Fin: estamos, somos, estou, teño, vou, Podiamos, Sigo, imos, podemos, podía
- AUX-Inf: sermos
- DET: nosa, noso, meu, miña, nosos, meus, nosas
- PRON: nos, me, nós, eu, min, nosa
- VERB-Fin: temos, fixemos, queremos, digo, quixera, chegamos, creo, defendiamos, deixamos, entendemos
- VERB-Inf: completarmos, integrarmos, irmos, termos
- 1,3
- VERB-Fin: Diría
- 2
- AUX-Fin: Vas
- PRON: te, che, ti
- VERB-Fin: Explica, Imaxina, aceptas, alboreas, atoparás, buscas, chegas, escoites, escureces, miras
- 3
- AUX-Fin: é, foi, está, son, pode, están, era, sería, vai, será
- AUX-Inf: seren
- DET: súa, seu, seus, súas, os, sua
- PRON: se, o, lle, a, lo, os, lles, as, elas, el
- VERB-Fin: hai, ten, teñen, fai, fixo, quere, considera, di, dá, fan
- VERB-Inf: teren, chegaren, colaboraren, compartiren, decidiren, desviaren, formaren, forzaren, iren, mostraren
- Plur
- DET: nosa, súa, seu, noso, súas, seus, nosos, nosas
- PRON: nosa
- Sing
- DET: súa, seu, seus, súas, meu, miña, meus, sua
- PRON: seu
Other Features
- AdpType
- Prep
- ADP: de, en, a, por, con, para, sobre, entre, sen, desde
- Prep
- Clitic
- Yes
- PRON: se, lle, nos, o, me, lo, lles, a, as, os
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 9 lemmas as copulas (cop). Examples: ser, estar, resultar, parecer, considerar, permanecer, deixar, eis, ter.
- This corpus uses 18 lemmas as auxiliaries (aux). Examples: poder, ir, ter, estar, deber, haber, vir, seguir, acabar, adoitar, pasar, ver, acertar, levar, quedar, querer, semellar, tratar.
- This corpus uses 3 lemmas as passive auxiliaries (aux:pass). Examples: ser, estar, quedar.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (336)
- VERB-Fin--NOUN-ADP(arredor) (1)
- VERB-Fin--NOUN-ADP(de) (2)
- VERB-Fin--PRON (277)
- VERB-Fin--PRON-ADP(con) (1)
- VERB-Fin--PRON-ADP(en) (1)
- VERB-Fin--PRON-ADP(por) (1)
- VERB-Fin--PRON-Acc (1)
- VERB-Fin--PRON-Dat (3)
- VERB-Fin--PRON-Nom (20)
- VERB-Ger--NOUN (7)
- VERB-Ger--PRON (5)
- VERB-Inf--NOUN (34)
- VERB-Inf--PRON (32)
- VERB-Inf--PRON-ADP(de) (1)
- VERB-Inf--PRON-Acc (1)
- VERB-Inf--PRON-Nom (1)
- VERB-Part--NOUN (15)
- VERB-Part--PRON (12)
- VERB-Part--PRON-Nom (1)
- obj
- VERB-Fin--NOUN (496)
- VERB-Fin--NOUN-ADP(a) (7)
- VERB-Fin--NOUN-ADP(arredor) (1)
- VERB-Fin--NOUN-ADP(de) (1)
- VERB-Fin--PRON (112)
- VERB-Fin--PRON-ADP(a) (2)
- VERB-Fin--PRON-ADP(de) (1)
- VERB-Fin--PRON-ADP(pesar) (1)
- VERB-Fin--PRON-Acc (54)
- VERB-Fin--PRON-Dat (6)
- VERB-Ger--NOUN (53)
- VERB-Ger--NOUN-ADP(a) (1)
- VERB-Ger--PRON (3)
- VERB-Ger--PRON-Acc (4)
- VERB-Inf--NOUN (283)
- VERB-Inf--NOUN-ADP(a) (1)
- VERB-Inf--NOUN-ADP(de) (1)
- VERB-Inf--PRON (34)
- VERB-Inf--PRON-ADP(a) (1)
- VERB-Inf--PRON-Acc (30)
- VERB-Part--NOUN (7)
- VERB-Part--PRON (1)
- VERB-Part--PRON-Acc (2)
- iobj
- VERB-Fin--NOUN-ADP(a) (20)
- VERB-Fin--PRON (3)
- VERB-Fin--PRON-ADP(a) (5)
- VERB-Fin--PRON-Acc (2)
- VERB-Fin--PRON-Dat (45)
- VERB-Ger--NOUN-ADP(a) (1)
- VERB-Ger--PRON-Dat (4)
- VERB-Inf--NOUN-ADP(a) (8)
- VERB-Inf--PRON (1)
- VERB-Inf--PRON-ADP(a) (3)
- VERB-Inf--PRON-Dat (13)
Relations Overview
- This corpus uses 4 relation subtypes: aux:pass, flat:foreign, flat:name, nsubj:pass
- The following 4 relation types are not used in this corpus at all: dislocated, clf, goeswith, reparandum