UD French FTB
Language: French (code: fr
)
Family: Indo-European, Romance
This treebank has been part of Universal Dependencies since the UD v2.0 release.
The following people have contributed to making this treebank part of UD: Marie Candito, Bruno Guillaume, Teresa Lynn, Héctor Martínez Alonso, Benoît Sagot, Djamé Seddah, Eric Villemonte de la Clergerie.
Repository: UD_French-FTB
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: LGPL-LR. The underlying text is not included; the user must obtain it separately and then merge with the UD annotation using a script distributed with UD
Genre: news
Questions, comments? General annotation questions (either French-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [djame • seddah (æt) paris-sorbonne • fr, marie • candito (æt) linguist • univ-paris-diderot • fr]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | annotated manually in non-UD style, automatically converted to UD |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | not available |
Features | annotated manually in non-UD style, automatically converted to UD |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
The Universal Dependency version of the French Treebank (Abeillé et al., 2003), hereafter UD_French-FTB, is a treebank of sentences from the newspaper Le Monde, initially manually annotated with morphological information and phrase-structure and then converted to the Universal Dependencies annotation scheme.
UD_French-FTB 2.3 is an automatic conversion of the French Treebank. The French Treebank constituency trees were first converted to dependency trees following (Candito et al., 2010), then the dependency trees were converted to UD scheme using B. Guillaume’s Sequoia treebank UD conversion rules. Finally a data-driven cross-treebank annotation transfer process (Seddah et al, 2017, forthcoming) was applied.
An evaluation on a gold standard leads to 94.75% of LAS, 99.40% UAS on the test set, on par with other high quality UD treebanks such as UD_English.
Acknowledgments
contributors: Marie Candito, Bruno Guillaume, Teresa Lynn, Hector Martinez-Alonso, Benoit Sagot, Djamé Seddah, Eric Villemonte de la Clergerie
contact: Djamé Seddah: djame.seddah@paris-sorbonne.fr Marie Candito: marie.candito@linguist.univ-paris-diderot.fr
Statistics of UD French FTB
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – VERB – X
Features
Definite – Gender – Mood – Number – NumType – Person – Polarity – Poss – PronType – Reflex – Tense – VerbForm – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:caus – aux:pass – case – cc – ccomp – conj – cop – csubj – dep – det – dislocated – expl – fixed – flat – flat:name – iobj – mark – nmod – nsubj – nsubj:caus – nummod – obj – obl – orphan – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 18535 sentences, 556064 tokens and 573370 syntactic words.
- This corpus contains 101852 tokens (18%) that are not followed by a space.
- This corpus contains 3 types of words with spaces. Examples: 30 000, 675 000, 700 000
- This corpus contains 23 types of words that contain both letters and punctuation. Examples: l', c', d', M., Aujourd', s', Jusqu', Qu', J', N', Lorsqu', MM., Moody', quelqu', ...chaudées, ...tant, ...vitant, AUJOURD', P...KIN, P...RIGUEUX, S...OUL, Tél., sous-traitant
- This corpus contains 17306 multi-word tokens. On average, one multi-word token consists of 2.00 syntactic words.
- There are 0 types of multi-word tokens. Examples: .
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, VERB, X
- This corpus does not use the following tags: SYM
- This corpus contains 1 word types tagged as particles (PART): _
- This corpus contains 39 lemmas tagged as pronouns (PRON): 30 000, Quarante, Quid, _, aucun, beaucoup, ce, ceci, cela, celui, certain, chacun, cinq, deux, dont, en, il, le, le/lui, lequel, nul, où, personne, peu, plusieurs, quatre, que, quel, quelle, qui, quoi, rien, six, soi, tout, trois, un, y, ça
- This corpus contains 18 lemmas tagged as determiners (DET): Première, _, aucun, autre, ce, certain, chaque, d', de, du, le, nul, plusieurs, quel, quelque, son, tout, un
- Out of the above, 10 lemmas occurred sometimes as PRON and sometimes as DET: _, aucun, ce, certain, le, nul, plusieurs, quel, tout, un
- This corpus contains 7 lemmas tagged as auxiliaries (AUX): _, aller, avoir, devoir, pouvoir, vouloir, être
- Out of the above, 5 lemmas occurred sometimes as AUX and sometimes as VERB: _, avoir, devoir, pouvoir, être
- There are 3 (de)verbal forms:
- Fin
- AUX: _, Peut, Avez, Est, Peuvent, Seront, Sont, A, Allons, Doit
- VERB: _, Reste, Est, Peut, Voilà, faut, Notons, Ajoutons, Supposons, Suivent
- X: _
- Inf
- AUX: _, Avoir
- VERB: _, Lire, Dire, Construire, Grignoter, Gérer, Réduire, ABOLIR, Accepter, Appeler
- Part
- AUX: _, Ayant, Etant
- VERB: _, Interrogé, Exprimés, Né, Réuni, Réunis, Donnant, Entré, Faisant, Mis
Nominal Features
- Fem
- ADJ: _, Seule, Toutes, Première, Autre, Quelle, toute, Dernière, Même, Deuxième
- ADP: _
- AUX-Part: _
- DET: _, la, L', les, Cette, une, ces, des, Sa, Leur
- NOUN: _, face, Fin, Grâce, Mme, Conséquence, Faute, Abstentions, Réunion, Concurrence
- NUM: _, Deux, 1992, Quatre, Trois, 1993, Huit, 1991, Sept, 1989
- PRON: _, Elle, elles, Celle, Celles, Se, S', En, Où, Aucune
- PROPN: _, FO, EDF, Genève, CGT, Jean, Anita, France, BOURSE, BT
- PUNCT: _
- VERB-Part: _, Basée, Devenue, Décidée, Emises, Fixée, Lancée, Liée, Née, Partie
- Masc
- ADJ: _, Autre, Tout, tous, Seul, Seuls, Difficile, Premier, Dernier, Deuxième
- ADP: _, À
- AUX-Part: _
- DET: _, le, les, l', un, Ce, ces, des, Son, Cet
- NOUN: _, M., Mr, DOC, Résultat, Article, Côté, Vendredi, Jeudi, Début
- NUM: _, Deux, Trois, Cinq, 4, Dix, Quatre, 27, Sept, 12
- PRON: _, il, c', On, ils, ce, nous, Cela, Je, Ceux
- PROPN: _, Paris, Michel, France, Air, FRANCFORT, Hachette, Jacques, Matra, LONDRES
- VERB-Fin: _
- VERB-Part: _, Interrogé, Exprimés, Né, Réuni, Réunis, Entré, Mis, Nommé, Passé
- Plur
- ADJ: _, tous, Toutes, Seuls, Conscients, Pauvres, Seules, Nombreuses, Nouveaux, Capables
- ADP: _
- AUX-Fin: _, Avez, Peuvent, Seront, Sont, Allons, Ont, Pourront, Serions
- AUX-Part: _
- DET: _, les, ces, des, D', Leur, De, Plusieurs, Quelques, Certains
- NOUN: _, Abstentions, Inscrits, MM., OUVRIERS, Retraites, Editions, MM, ÉTATS, Agents
- NUM: _, Deux, Trois, Cinq, Quatre, Dix, Huit, Sept, Trente, Quinze
- PRON: _, ils, nous, elles, Ceux, Certains, Celles, Tous, Vous, S'
- PROPN: _, Etats, Chargeurs, Ebauches, ETATS, Editions, Imprimeries, Reporters
- VERB-Fin: _, Notons, Ajoutons, Supposons, Suivent, Ajoutez, Entrent, Sont, Viennent, Allongez
- VERB-Part: _, Exprimés, Réunis, Disparus, Emises, Passés, ...chaudées, Accusées, Additionnées, Affectés
- X-Fin: _
- Sing
- ADJ: _, Autre, Tout, Seul, Difficile, Seule, Premier, Deuxième, Dernier, Première
- ADP: _, À
- AUX-Fin: _, Peut, Est, A, Doit, Fût, Pourrait, Pouvait, Sera, Va
- AUX-Part: _
- DET: _, le, la, l', Cette, un, une, Ce, Son, Cet
- NOUN: _, M., Mr, DOC, face, Fin, Résultat, Article, Grâce, Côté
- NUM: _, 1992, 4, 27, 19, 1993, 3, 12, 13, 17
- PRON: _, il, c', On, Elle, ce, Cela, Je, Celui, Tout
- PROPN: _, Paris, Michel, France, FO, Jean, Air, FRANCFORT, Hachette, Jacques
- PUNCT: _
- VERB-Fin: _, Reste, Est, Peut, Voilà, faut, Faudra, Sait, Serait, Voici
- VERB-Inf: _
- VERB-Part: _, Interrogé, Né, Réuni, Entré, Nommé, Passé, Appelé, Placé, Agé
- Def
- DET: _, le, la, les, l'
- Ind
- ADJ: _
- DET: _, un, une, des, D', De, Plusieurs, Quelques, Chaque, Certains
- PRON: _
Degree and Polarity
- Neg
- ADV: _, Ne, N', Jamais
Verbal Features
- Cnd
- AUX-Fin: _, Pourrait, Serions
- VERB-Fin: _, Serait
- Imp
- VERB-Fin: _, Notons, Ajoutons, Supposons, Ajoutez, Allongez, Attendons, Changez, Citons, Commençons
- Ind
- AUX-Fin: _, Peut, Avez, Est, Peuvent, Seront, Sont, A, Allons, Doit
- VERB-Fin: _, Reste, Est, Peut, Voilà, faut, Suivent, Entrent, Faudra, Sait
- VERB-Part: _
- X-Fin: _
- Sub
- AUX-Fin: _, Fût
- VERB-Fin: _
- Fut
- AUX-Fin: _, Seront, Pourront, Sera, Voudra
- VERB-Fin: _, Faudra, Aura
- Imp
- AUX-Fin: _, Fût, Pouvait
- VERB-Fin: _, Débutait
- Past
- AUX-Fin: _
- AUX-Part: _
- VERB-Fin: _, Vint
- VERB-Part: _, Interrogé, Exprimés, Né, Réuni, Réunis, Entré, Mis, Nommé, Passé
- Pres
- AUX-Fin: _, Peut, Avez, Est, Peuvent, Sont, A, Allons, Doit, Ont
- AUX-Part: _, Ayant, Etant
- VERB-Fin: _, Reste, Est, Peut, Voilà, faut, Notons, Ajoutons, Supposons, Suivent
- VERB-Inf: _
- VERB-Part: _, Donnant, Faisant, Moyennant, Estimant, Evoquant, Rappelant, Suivant, Commentant, Craignant
- X-Fin: _
- Pass
- VERB-Fin: _
- VERB-Inf: _
- VERB-Part: _
Pronouns, Determiners, Quantifiers
- Art
- ADJ: _
- DET: _, le, la, les, l', un, une, des, D', De
- PRON: _
- Dem
- DET: _, Cette, Ce, ces, Cet, CETTE
- PRON: _, Cela, Ce, Ceux, Celui, Celle, Celles, Ceci, Ça
- Int
- ADV: _, Comment, Pourquoi, Où, Quand, Combien, Involontairement, POURQUOI
- DET: _, Quelle, D', Quelles, Quels
- PRON: _, qui, Que, Qu', Quoi, Lequel, Quelle, Quelles
- Prs
- PRON: _, Lui, Elle, Moi, Personne
- Rel
- PRON: _, Certains, Tout, rien, Personne, Chacun, Ce, Tous, qui, un
- Card
- ADJ: _
- NOUN: _, MM., C, V
- NUM: _, Deux, Trois, Dix, Quatre, 1992, Vingt, Cinq, Sept, Cent
- PRON: _, 30 000, Cinq, Deux, Quarante, Quatre, Six, Trois, Une
- Ord
- ADJ: _, Premier, Deuxième, Première, 1er, Second, Seconde, Troisième, 40ème, Dixième
- NOUN: _
- Yes
- ADJ: _
- DET: _, Son, Leur, Ses, Sa, Notre, Nos, Ma, Leurs
- NOUN: _
- PRON: _
- Yes
- PRON: _, s', Se
- 1
- AUX-Fin: _, Allons, Serions
- DET: _, Notre, Nos, Ma
- PRON: _, nous, Je, J', Moi
- VERB-Fin: _, Notons, Ajoutons, Supposons, Assistons, Attendons, Citons, Commençons, Constatons, Disons
- 2
- AUX-Fin: _, Avez
- DET: _
- PRON: _, Vous, Tu
- VERB-Fin: _, Ajoutez, Allongez, Changez, Courez, Croissez, Etes, Prenez, Proposez, Regardez
- 3
- ADP: _, À
- AUX-Fin: _, Peut, Est, Peuvent, Seront, Sont, A, Doit, Fût, Ont
- DET: _, Son, Leur, Ses, Sa, Certains, Leurs
- PRON: _, il, c', On, Elle, ils, ce, Cela, elles, Certains
- VERB-Fin: _, Reste, Est, Peut, Voilà, faut, Suivent, Entrent, Faudra, Sait
- VERB-Inf: _
- VERB-Part: _
- X: _
- X-Fin: _
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: _, être.
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: _, avoir, être.
- This corpus uses 2 lemmas as passive auxiliaries (aux:pass). Examples: _, être.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (7092)
- VERB-Fin--NOUN-ADP(_) (4)
- VERB-Fin--NOUN-ADP(bien) (1)
- VERB-Fin--NOUN-ADP(coopération) (1)
- VERB-Fin--PRON (6467)
- VERB-Fin--PRON-ADP(_) (2)
- VERB-Inf--NOUN (89)
- VERB-Inf--NOUN-ADP(grâce) (1)
- VERB-Inf--PRON (74)
- VERB-Part--NOUN (5414)
- VERB-Part--NOUN-ADP(_) (2)
- VERB-Part--NOUN-ADP(de) (1)
- VERB-Part--NOUN-ADP(quant) (1)
- VERB-Part--PRON (2112)
- obj
- VERB-Fin--NOUN (5534)
- VERB-Fin--NOUN-ADP(_) (21)
- VERB-Fin--PRON (1283)
- VERB-Fin--PRON-ADP(_) (1)
- VERB-Inf--NOUN (5209)
- VERB-Inf--NOUN-ADP(_) (12)
- VERB-Inf--PRON (607)
- VERB-Inf--PRON-ADP(_) (2)
- VERB-Part--NOUN (3424)
- VERB-Part--NOUN-ADP(_) (10)
- VERB-Part--PRON (484)
- iobj
- VERB-Fin--NOUN (10)
- VERB-Fin--PRON (1079)
- VERB-Inf--NOUN (8)
- VERB-Inf--PRON (266)
- VERB-Inf--PRON-ADP(_) (1)
- VERB-Part--NOUN (4)
- VERB-Part--PRON (614)
Verbs with Reflexive Core Objects
- This corpus contains 2 lemmas that occur at least once with a reflexive core object (obj or iobj). Examples: _ _, _ se