UD French GSD
Language: French (code: fr
)
Family: Indo-European, Romance
This treebank has been part of Universal Dependencies since the UD v1.0 release.
The following people have contributed to making this treebank part of UD: Marie-Catherine de Marneffe, Bruno Guillaume, Ryan McDonald, Alane Suhr, Joakim Nivre, Matias Grioni, Carly Dickerson, Guy Perrier.
Repository: UD_French-GSD
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: CC BY-NC-SA 3.0 US
Genre: blog, news, reviews, wiki
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [demarneffe • 1 (æt) osu • edu, bruno • guillaume (æt) inria • fr]. Development of the treebank happens directly in the UD repository, so you may submit bug fixes as pull requests against the dev branch.
Annotation | Source |
---|---|
Lemmas | assigned by a program, with some manual corrections, but not a full manual verification |
UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
XPOS | not available |
Features | assigned by a program, with some manual corrections, but not a full manual verification |
Relations | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Description
The French UD was converted in 2015 from the content head version of the universal dependency treebank v2.0 (https://github.com/ryanmcd/uni-dep-tb). It is updated since 2015 independently from the previous source.
The French UD is converted from the content head version of the universal dependency treebank v2.0 (https://github.com/ryanmcd/uni-dep-tb). The README for the original project is available below.
The version 2.2 of French data consists of 402,426 words (16,448 sentences).
No sentence id were available in the original resource, so new sent_id
were automatically introduced in the converted corpus with prefixes fr-ud-train
, fr-ud-dev
and fr-ud-test
on the correponding original files, followed by a 5 digit number following the order of sentences.
:warning: to meet the size requirements of test data of 10K words, a part of the dev original file was moved to the test file! Since version 2.0, the splitting of data is:
- file
fr-ud-train.conll
: 14,554 sentences; 356,638 words fr-ud-train_00001
tofr-ud-train_14554
- file
fr-ud-dev.conll
: 1,478 sentences; 35,768 words fr-ud-dev_00001
tofr-ud-dev_01478
- file
fr-ud-test.conll
: 416 sentences; 10,020 words fr_ud-test_00001
tofr_ud-test_00298
fr-ud-dev_01479
tofr-ud-dev_01596
Sentences are shuffled and there is no way to know what is the genre of a given sentence.
Probably due to some bug in a conversion program, version 1.2 contains many truncated sentences (date missing for instance). Almost every truncated sentence is from Wikipedia, so it was possible to recover the original text. Most of the truncated sentences were completed in version 1.3. Some sentences were completed later. There are probably still some truncated sentences.
Acknowledgments
The latest version of the corpus was produced by Marie-Catherine de Marneffe, Bruno Guillaume, Matias Grioni, Carly Dickerson and Guy Perrier. Automatic modifications and consistency checking were partly done using the Grew software.
See below for references and acknowledgments concerning the original corpus.
Statistics of UD French GSD
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB – X
Features
Case – Definite – Degree – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – VerbForm
Relations
acl – acl:relcl – advcl – advcl:cleft – advmod – amod – appos – aux – aux:caus – aux:pass – case – cc – ccomp – compound – conj – cop – csubj – csubj:pass – dep – det – discourse – dislocated – expl – expl:pass – fixed – flat – flat:foreign – flat:name – goeswith – iobj – iobj:agent – mark – nmod – nsubj – nsubj:caus – nsubj:pass – nummod – obj – obj:agent – obj:lvc – obl – obl:agent – obl:arg – obl:mod – orphan – parataxis – punct – reparandum – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 16342 sentences, 389415 tokens and 400440 syntactic words.
- This corpus contains 58273 tokens (15%) that are not followed by a space.
- This corpus contains 126 types of words with spaces. Examples: 10 000, 100 000, 20 000, 50 000, 1 000, 2 000, 1 200, 1 500, 200 000, 25 000, 5 000, 80 000, 1 100, 1 400, 150 000, 2 500, 30 000, 300 000, 400 000, 60 000, 68 000, 02 31 30 47 70, 1 068, 1 108, 1 209, 1 231, 1 237 500, 1 250, 1 300, 1 345, 1 444 861, 1 496, 1 500 000, 1 728, 1 766 691 409, 1 890, 1,186 569 110, 10 250, 11 437, 11 506, 11 839, 13 500, 13 641, 147 000, 149 900, 16 000, 16 851, 170 055, 18 424, 19 000
- This corpus contains 2117 types of words that contain both letters and punctuation. Examples: l', d', s', qu', n', c', jusqu', j', aujourd'hui, États-Unis, -il, -t, m', lui-même, celui-ci, M., c'est-à-dire, lorsqu', 's, celle-ci, -elle, au-dessus, etc., -ce, sud-est, Royaume-Uni, ceux-ci, au-delà, elle-même, peut-être, sud-ouest, -ils, J.-C., av., nord-ouest, -on, nord-est, -vous, Etats-Unis, Grande-Bretagne, Pays-Bas, eux-mêmes, porte-parole, Notre-Dame, puisqu', week-end, C., quelqu'un, -là, celles-ci
- This corpus contains 11025 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 9 types of multi-word tokens. Examples: du, des, au, aux, auquel, duquel, auxquels, desquelles, auxquelles.
Morphology
Tags
- This corpus uses 17 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus contains 17 word types tagged as particles (PART): 's, -ci, -t, ci, di, déca, ex, hyper, là, méga, penta, post, pré, t', to, tri, up
- This corpus contains 83 lemmas tagged as pronouns (PRON): 1 728, 2, 345, I, aucun, autre, autrui, beaucoup, ce, ceci, cela, celui, celui-ci, celui-là, certain, ceux-là, chacun, cinq, combien, dernier, deux, dont, eis, elle, elle-même, en, eos, esta, eux-mêmes, il, it, je, le, lequel, leur, lui, lui-même, me, moi, moi-même, même, nous, nous-mêmes, nul, on, onze, où, personne, peu, plupart, plusieurs, premier, quatre, que, quel, quelqu'un, qui, quiconque, quinze, quoi, rien, se, she, sien, sienne, soi, soi-même, soixante, te, tel, they, tout, trois, tu, un, vous, what, which, who, y, you, your, ça
- This corpus contains 34 lemmas tagged as determiners (DET): a, all, aucun, ce, certain, chaque, der, différent, divers, du, el, his, il, l', la, le, ledit, mi, my, no, noster, nul, plusieurs, quel, quelque, some, son, suis, tel, that, the, tout, un, your
- Out of the above, 12 lemmas occurred sometimes as PRON and sometimes as DET: aucun, ce, certain, il, le, nul, plusieurs, quel, tel, tout, un, your
- This corpus contains 10 lemmas tagged as auxiliaries (AUX): avoir, be, can, can't, do, faire, fue, must, will, être
- Out of the above, 4 lemmas occurred sometimes as AUX and sometimes as VERB: avoir, be, faire, être
- There are 3 (de)verbal forms:
- Fin
- AUX: est, a, sont, ont, était, fut, avait, ai, sera, étaient
- VERB: a, peut, fait, est, trouve, devient, doit, ont, permet, agit
- Inf
- AUX: être, avoir, faire, be, -être, etre
- VERB: faire, partir, voir, prendre, avoir, mettre, passer, trouver, aller, dire
- Part
- AUX: été, étant, ayant, fait, faisant, Etant, faite
- VERB: né, située, situé, eu, fait, mort, connu, nommé, née, réalisé
Nominal Features
- Fem
- ADJ: première, française, grande, même, nouvelle, nombreuses, nationale, autres, seule, internationale
- AUX-Part: faite
- DET: la, une, les, l', sa, cette, des, ses, son, leur
- NOUN: ville, partie, région, fois, commune, années, famille, année, fin, place
- NUM: 00H30, 12H30, 14h25, 15H00, 18h, 18h40, 20h40, 22h, 23h, 48H
- PRON: elle, elles, une, la, celle, laquelle, celles, celle-ci, -elle, lesquelles
- PROPN: Italie
- VERB-Part: située, née, créée, appelée, utilisée, connue, construite, mise, publiée, nommée
- Masc
- ADJ: premier, français, grand, autres, nouveau, même, dernier, nombreux, seul, ancien
- AUX-Part: été, fait
- DET: le, les, un, l', son, des, ce, ses, ces, de
- NOUN: ans, pays, nom, monde, temps, groupe, siècle, état, cours, lieu
- PRON: il, on, ils, le, un, -il, lequel, celui, tout, ceux
- PROPN: IRT, Palais, mémorique
- VERB-Fin: remis
- VERB-Part: né, situé, eu, fait, mort, connu, nommé, réalisé, utilisé, mis
- X: Domine, kendayan
- Neut
- ADJ: Koninklijk
- NOUN: Museum
- Plur
- ADJ: autres, nombreux, nombreuses, grands, premières, premiers, grandes, différents, français, nouveaux
- AUX-Fin: sont, ont, étaient, avons, furent, avaient, seront, sommes, soient, auraient
- DET: les, des, ses, ces, de, plusieurs, leurs, tous, quelques, d'
- NOUN: ans, années, pays, enfants, habitants, personnes, jours, droits, points, hommes
- NUM: 00H30, 12H30, 14h25, 15H00, 18h, 18h40, 20h40, 22h, 23h, 48H
- PRON: ils, nous, vous, autres, les, elles, ceux, eux, leur, tous
- PROPN: IRT
- VERB-Fin: ont, peuvent, font, doivent, sont, prennent, trouvent, vont, permettent, constituent
- VERB-Part: utilisés, appelés, utilisées, connus, situés, produits, réalisés, liées, mis, prises
- Sing
- ADJ: premier, première, même, français, française, grande, grand, nouveau, autre, politique
- AUX-Fin: est, a, était, fut, avait, ai, sera, soit, aurait, fait
- AUX-Part: été, fait, faite
- DET: le, la, l', un, une, son, sa, cette, ce, leur
- NOUN: ville, partie, nom, monde, région, commune, groupe, temps, famille, année
- PRON: il, elle, on, c', lui, ce, je, le, j', l'
- PROPN: Italie, Palais, mémorique
- VERB-Fin: a, peut, fait, est, trouve, devient, doit, permet, agit, faut
- VERB-Part: né, située, situé, eu, fait, mort, connu, nommé, née, réalisé
- X: Domine, kendayan
- Abl
- NOUN: laude
- Acc
- NOUN: Krisen
- Nom
- NOUN: Verantwortung
- Voc
- X: Domine
- Def
- DET: le, la, les, l', the, l, du, là
- NOUN: Facultés
- Ind
- DET: un, une, des, de, d', du, telle, in
Degree and Polarity
- Cmp
- ADJ: Higher
- Neg
- ADV: pas, n', ne, plus, jamais, non, qu', not, point, guère
- DET: aucun, aucune, no, Nul
- PRON: rien, aucun
Verbal Features
- Cnd
- AUX-Fin: aurait, serait, auraient, seraient, serais, aurais, aurions, seriez, ferait, serions
- VERB-Fin: pourrait, devrait, pourraient, aurait, devraient, serait, auraient, faudrait, souhaiterait, viendrait
- Imp
- AUX-Fin: soyez, sois
- VERB-Fin: allez, hésitez, Rappelons, Notons, arrêtez, pensez, Cliquez, Demandez, attendez, citons
- Ind
- AUX-Fin: est, a, sont, ont, était, fut, avait, ai, sera, étaient
- VERB-Fin: a, peut, fait, est, trouve, devient, doit, ont, permet, agit
- Sub
- AUX-Fin: soit, ait, soient, aient, fût, eût, fasse, aie, ayez, fassent
- VERB-Fin: puisse, puissent, agisse, fasse, aient, ait, arrive, prenne, soit, change
- Fut
- AUX-Fin: sera, seront, aura, auront, fera, feront, serez, aurons
- VERB-Fin: aura, fera, pourra, permettra, restera, feront, deviendra, permettront, devra, faudra
- Imp
- AUX-Fin: était, avait, étaient, avaient, avais, avions, étais, faisait, étions, fût
- VERB-Fin: avait, devait, comptait, était, pouvait, faisait, allait, avaient, portait, disait
- Past
- AUX-Fin: fut, furent, fit, eut, firent
- AUX-Part: été, fait, faite
- NOUN: séquestrés
- VERB-Fin: prit, devint, fit, eut, donna, reçut, décida, participa, écrivit, demanda
- VERB-Part: né, située, situé, eu, fait, mort, connu, nommé, née, réalisé
- Pres
- AUX-Fin: est, a, sont, ont, ai, soit, avons, aurait, fait, suis
- AUX-Part: étant, ayant, faisant, Etant
- VERB-Fin: a, peut, fait, est, trouve, devient, doit, ont, permet, agit
- VERB-Part: appartenant, concernant, faisant, permettant, ayant, portant, pouvant, prenant, utilisant, visant
Pronouns, Determiners, Quantifiers
- Art
- DET: le, la, les, l', un, une, des, de, d', du
- Dem
- DET: cette, ce, ces, cet
- PRON: c', ce, cela, celle, celui, ceux, celui-ci, celles, ça, celle-ci
- Ind
- PRON: quiconque
- Int
- PRON: Que
- Neg
- DET: aucune, aucun, aucunes
- PRON: personne, aucun
- Prs
- DET: son, sa, ses, leur, leurs, notre, mon, nos, ma, votre
- PRON: il, se, s', elle, ils, lui, nous, je, le, vous
- Rel
- ADV: où, ou, oà
- PRON: qui, dont, qu', que, où, lequel, laquelle, lesquels, lesquelles, quoi
- SCONJ: qu', que
- Ord
- ADJ: XIXe, XXe, XVIIe, XVIe, XVIIIe, XIIe, XIe, XVe, XIIIe, VIe
- Yes
- DET: son, sa, ses, leur, leurs, notre, mon, nos, ma, votre
- NOUN: Citizen
- PRON: Your
- PROPN: Lincoln, Andrew, Barney, Benson, Devil, Dumbo, Schott
- Yes
- PRON: lui-même, elle-même, eux-mêmes, elles-mêmes, moi-même, moi, nous-mêmes, soi-même
- 1
- AUX-Fin: ai, avons, suis, sommes, avais, avions, étais, serais, étions, aurais
- PRON: nous, je, j', m', me, moi, -je, -nous, -moi, I
- VERB-Fin: recommande, conseille, ai, trouve, vais, pense, pouvons, aime, devons, peux
- 2
- AUX-Fin: êtes, avez, es, soyez, as, serez, seriez, ayez, fais, sois
- PRON: vous, -vous, tu, -tu, t', te, toi, -toi, you, tien
- VERB-Fin: allez, hésitez, avez, voulez, pouvez, passez, pourrez, pensez, êtes, cherchez
- 3
- AUX-Fin: est, a, sont, ont, était, fut, avait, sera, étaient, soit
- DET: l'
- PRON: il, se, s', elle, on, c', en, ils, lui, ce
- VERB-Fin: a, peut, fait, est, devient, doit, ont, trouve, permet, agit
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 3 lemmas as copulas (cop). Examples: être, be, fue.
- This corpus uses 8 lemmas as auxiliaries (aux). Examples: avoir, être, do, will, can, be, can't, must.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: être, be.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (5)
- VERB--PRON (7)
- VERB-Fin--NOUN (4418)
- VERB-Fin--NOUN-ADP(de) (2)
- VERB-Fin--NOUN-ADP(que) (2)
- VERB-Fin--NOUN-ADP(à) (1)
- VERB-Fin--PRON (6355)
- VERB-Fin--PRON-ADP(à) (1)
- VERB-Inf--NOUN (4)
- VERB-Inf--PRON (7)
- VERB-Part--NOUN (1446)
- VERB-Part--NOUN-ADP(de) (1)
- VERB-Part--PRON (1508)
- obj
- VERB--NOUN (25)
- VERB--PRON (13)
- VERB-Fin--NOUN (5234)
- VERB-Fin--NOUN-ADP(de) (5)
- VERB-Fin--NOUN-ADP(en) (1)
- VERB-Fin--NOUN-ADP(pour) (1)
- VERB-Fin--NOUN-ADP(à) (1)
- VERB-Fin--PRON (1116)
- VERB-Inf--NOUN (2718)
- VERB-Inf--NOUN-ADP(un) (1)
- VERB-Inf--PRON (626)
- VERB-Part--NOUN (2139)
- VERB-Part--PRON (365)
- iobj
- VERB-Fin--PRON (440)
- VERB-Inf--PRON (153)
- VERB-Part--PRON (197)
Reflexive Passive
- This corpus contains 223 lemmas that occur at least once with an expl:pass child. Examples: trouver se, situer se, faire se, développer se, tenir se, retrouver se, terminer se, étendre s', poursuivre se, élever s', rencontrer se, ajouter s', classer se, distinguer se, appliquer s', produire se, tenir s', imposer s', jouer se, nommer se, présenter se, appeler s', inscrire s', qualifier se, expliquer s', traduire se, achever s', concentrer se, manifester se, ouvrir s', aggraver s', améliorer s', appuyer s', effectuer s', produire s', transformer se, vendre se, arrêter s', articuler s', distinguer s', dresser se, endormir s', former se, installer s', placer se, établir s', accompagner s', allonger s', annoncer s', briser se
Verbs with Reflexive Core Objects
- This corpus contains 2 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: connaître soi-même, célébrer nous-mêmes
Relations Overview
- This corpus uses 16 relation subtypes: acl:relcl, advcl:cleft, aux:caus, aux:pass, csubj:pass, expl:pass, flat:foreign, flat:name, iobj:agent, nsubj:caus, nsubj:pass, obj:agent, obj:lvc, obl:agent, obl:arg, obl:mod
- The following 2 relation types are not used in this corpus at all: clf, list