UD Swedish Talbanken
Language: Swedish (code: sv
)
Family: Indo-European, Germanic
This treebank has been part of Universal Dependencies since the UD v1.0 release.
The following people have contributed to making this treebank part of UD: Joakim Nivre, Aaron Smith.
Repository: UD_Swedish-Talbanken
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: CC BY-SA 4.0
Genre: news, nonfiction
Questions, comments? General annotation questions (either Swedish-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [joakim • nivre (æt) lingfil • uu • se]. Development of the treebank happens outside the UD repository. If there are bugs, either the original data source or the conversion procedure must be fixed. Do not submit pull requests against the UD repository.
Annotation | Source |
---|---|
Lemmas | assigned by a program, with some manual corrections, but not a full manual verification |
UPOS | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
XPOS | annotated manually |
Features | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Relations | annotated manually in non-UD style, automatically converted to UD, with some manual corrections of the conversion |
Description
The Swedish-Talbanken treebank is based on Talbanken, a treebank developed at Lund University in the 1970s.
The Swedish-Talbanken treebank is a conversion of the Prose section of Talbanken (Einarsson, 1976), originally annotated by a team led by Ulf Teleman at Lund University according to the MAMBA annotation scheme (Teleman, 1974). It consists of roughly 6,000 sentences and 95,000 tokens taken from a variety of informative text genres, including textbooks, information brochures, and newspaper articles. The syntactic annotation is converted directly from the original MAMBA annotation, while the morphological annotation is based on the reannotation performed when incorporating Talbanken into the Swedish Treebank (Nivre and Megyesi, 2007). Tokenization mostly follows the standard of the Stockholm-Umeå Corpus, Version 2.0 (2006), and lemmatization is based on Saldo (Borin et al., 2008).
Acknowledgments
The new conversion has been performed by Joakim Nivre and Aaron Smith at Uppsala University. We thank everyone who has been involved in previous conversion efforts at Växjö University and Uppsala University, including Bengt Dahlqvist, Sofia Gustafson-Capkova, Johan Hall, Anna Sågvall Hein, Beáta Megyesi, Jens Nilsson, and Filip Salomonsson. Special thanks also to Lars Borin and Markus Forsberg at Språkbanken for help with the lemmatization. Finally, we owe a huge debt to the team who produced the original treebank in the 1970s.
References
-
Lars Borin, Markus Forsberg, Lennart Lönngren. 2008. Saldo 1.0 (Svenskt associationslexikon version 2). Språkbanken, Göteborg universitet.
-
Einarsson, Jan. 1976. Talbankens skriftspråkskonkordans. Lund University: Department of Scandinavian Languages.
-
Joakim Nivre and Beáta Megyesi. 2007. Bootstrapping a Swedish treeebank using cross-corpus harmonization and annotation projection. In Proceedings of the 6th International Workshop on Treebanks and Linguistic Theories, pages 97-102.
-
Teleman, Ulf. 1974. Manual för grammatisk beskrivning av talad och skriven svenska. Studentlitteratur.
-
The Stockholm Umeå Corpus. Version 2.0. 2006. Stockholm University: Department of Linguistics.
Statistics of UD Swedish Talbanken
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – INTJ – NOUN – NUM – PART – PRON – PROPN – PUNCT – SCONJ – SYM – VERB
Features
Abbr – Case – Definite – Degree – Foreign – Gender – Mood – Number – NumType – Polarity – Poss – PronType – Tense – VerbForm – Voice
Relations
acl – acl:cleft – acl:relcl – advcl – advmod – amod – appos – aux – aux:pass – case – cc – ccomp – compound – compound:prt – conj – cop – csubj – csubj:pass – det – discourse – dislocated – expl – fixed – flat:name – iobj – list – mark – nmod – nmod:poss – nsubj – nsubj:pass – nummod – obj – obl – obl:agent – orphan – parataxis – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 6026 sentences and 96819 tokens.
- This corpus contains 9733 tokens (10%) that are not followed by a space.
- This corpus contains 12 types of words with spaces. Examples: t ex, s k, bl a, t o m, o s v, d v s, fr o m, m m, f n, e d, m fl, t v
- This corpus contains 365 types of words that contain both letters and punctuation. Examples: t.ex., bl.a., u-länderna, s., EEC:s, kap., s.k., u-länder, 60-talet, kl., EEC-länderna, dvs., 1800-talet, yrkes-, 1960-talet, 70-talet, FN:s, RFSU-laboratoriet, a., doc., m.fl., resp., sid., t.o.m., u-ländernas, 1800-talets, 1900-talet, KF:s, barn-, ett-, i-länderna, m.m., manisk-depressiva, u-land, 15-årsperioden, 1960-talets, B-inkomster, I., Ollo-Food, Per-Ola, RFSU-laboratoriets, a), b), fack-, far-, fig., hem-, i-länder, kibbutz-, kommun-
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB
- This corpus does not use the following tags: X
- This corpus contains 4 word types tagged as particles (PART): att, ej, icke, inte
- This corpus contains 56 lemmas tagged as pronouns (PRON): all, allt, alltihop, allting, annan, bägge, båda, bådadera, de, den, denna, densamma, det, dom, du, en, envar, fler, flera, få, han, hon, ingen, ingendera, ingenting, jag, man, mitt, mycken, mycket, många, mången, ni, någon, någonting, nånting, samtlig, sig, som, somlig, sån, två, vad, var, vara, varandra, varann, varannan, vardera, vars, vem, vi, vilka, vilken, vissa, vår
- This corpus contains 21 lemmas tagged as determiners (DET): all, allt, bägge, de, den, denna, det, en, ingen, man, någon, samma, the, var, vara, varannan, vardera, varenda, varje, vilken, vilket
- Out of the above, 16 lemmas occurred sometimes as PRON and sometimes as DET: all, allt, bägge, de, den, denna, det, en, ingen, man, någon, var, vara, varannan, vardera, vilken
- This corpus contains 16 lemmas tagged as auxiliaries (AUX): behöva, bli, bruka, böra, dra, få, ha, komma, kunna, lär, må, måste, skola, torde, vara, vilja
- Out of the above, 14 lemmas occurred sometimes as AUX and sometimes as VERB: behöva, bli, bruka, böra, dra, få, ha, komma, kunna, må, måste, skola, vara, vilja
- There are 5 (de)verbal forms:
- Fin
- AUX: är, kan, har, måste, skall, skulle, ska, kommer, var, får
- VERB: har, finns, är, blir, får, gäller, ger, går, kommer, gör
- Inf
- AUX: vara, kunna, få, ha, bli, behöva, vilja, komma, dra
- VERB: få, ha, bli, göra, ge, ta, komma, gå, se, vara
- Part
- ADJ: följande, beroende, särskild, särskilda, ökad, motsvarande, liknande, ökade, gifta, nuvarande
- VERB: påverkade, vald, vänd, hörselskadad, tvungna, accepterad, anpassade, bedövade, diciplinerade, emanciperade
- Stem
- VERB: läs-
- Sup
- AUX: varit, kunnat, fått, kommit, blivit, velat
- VERB: fått, blivit, haft, gjort, ökat, kommit, gått, visat, börjat, skett
Nominal Features
- Com
- ADJ: stor, annan, själv, sådan, viss, egen, ny, hög, kristen, social
- ADJ-Part: särskild, ökad, beredd, gift, bosatt, fortsatt, oförändrad, angiven, född, genomförd
- DET: en, den, denna, någon, ingen, vilken, var, all, varannan, nån
- NOUN: del, procent, människor, tid, familjen, kvinnor, man, dag, miljoner, fråga
- NUM: en
- PRON: man, vi, den, du, sin, han, jag, oss, hon, en
- VERB-Part: vald, vänd, hörselskadad, accepterad, förstärkt, förändrad, ifylld, komplicerad, likställd, lämnad
- Fem
- NOUN: nuptiam
- Masc
- ADJ: enskilde, andre, sjuke, ene, enskildes, lille, skattskyldige, unge, amerikanske, andres
- ADJ-Part: avlidnes
- NOUN: consensus
- PRON: denne
- Neut
- ADJ: annat, svårt, nytt, möjligt, sådant, viktigt, eget, socialt, stort, övrigt
- ADJ-Part: sett, taget, särskilt, sagt, ökat, förbjudet, fött, inkomstprövat, räknat, valt
- DET: ett, det, detta, något, allt, inget, vilket, vart, vartannat
- NOUN: år, barn, äktenskapet, barnen, sätt, samhället, arbete, fall, äktenskap, barnet
- NUM: ett
- PRON: det, detta, vad, sitt, något, vårt, allt, vilket, ditt, mycket
- VERB-Part: förbjudet, opåverkat, reglerat, sysselsatt, tillgodosett, upplagt
- Plur
- ADJ: olika, andra, många, vissa, stora, flera, flesta, nya, små, sådana
- ADJ-Part: särskilda, gifta, handikappade, ökade, bestämda, skilda, kända, avsedda, höjda, isolerade
- DET: de, alla, dessa, några, vilka, inga, bägge, dom
- NOUN: barn, år, barnen, procent, människor, kvinnor, miljoner, kronor, fall, länder
- PRON: de, vi, dem, sina, oss, våra, andra, många, alla, varandra
- VERB-Part: påverkade, tvungna, anpassade, bedövade, diciplinerade, emanciperade, fjärrundersökta, frusterade, färdigräknade, fördelade
- Sing
- ADJ: stor, hela, annan, nya, själv, sådan, viss, egen, annat, ny
- ADJ-Part: särskild, ökad, sett, taget, beredd, särskilt, fortsatt, gift, ökade, bosatt
- DET: en, den, ett, det, denna, varje, någon, detta, ingen, något
- NOUN: del, äktenskapet, år, tid, samhället, familjen, arbete, barn, sätt, äktenskap
- NUM: en, ett
- PRON: det, man, den, du, sin, detta, vad, han, jag, sitt
- VERB-Part: vald, vänd, hörselskadad, accepterad, förbjudet, förstärkt, förändrad, ifylld, komplicerad, likställd
- Acc
- NOUN: nuptiam
- PRON: sig, dem, oss, dig, varandra, mig, henne, honom, sej, varann
- Gen
- ADJ: anställdas, enskildes, försäkrades, äldres, andres, avlidnes, dubbelarbetandes, efterkommandes, enskilds, frånskildas
- ADJ-Part: anställdas, försäkrades, avlidnes, dubbelarbetandes, sammanboendes, studerandes
- NOUN: äktenskapets, kvinnans, världens, barnens, familjens, års, dagens, samhällets, jordens, slags
- PROPN: Sveriges, EEC:s, Guds, Stockholms, FN:s, Kristi, KF:s, Parsons, Europas, Jesu
- Nom
- ADJ: olika, andra, första, nya, många, stora, stor, större, vissa, hela
- ADJ-Part: följande, beroende, särskild, särskilda, ökad, motsvarande, liknande, ökade, gifta, nuvarande
- NOUN: år, barn, del, äktenskapet, procent, barnen, människor, tid, sätt, samhället
- NUM: två, tre, en, 1, 20, 2, ett, 1970, 3, 10
- PRON: man, de, vi, du, han, jag, hon, ni, bägge, en
- PROPN: Sverige, EEC, Stockholm, USA, ATP, Gud, Göteborg, Horn, Danmark, Indien
- VERB-Part: påverkade, vald, vänd, hörselskadad, tvungna, accepterad, anpassade, bedövade, diciplinerade, emanciperade
- Def
- ADJ: hela, nya, flesta, svenska, andra, bästa, ekonomiska, största, kristna, närmaste
- ADJ-Part: ökade, gifta, dolda, nedärvda, nämnda, beräknade, förändrade, minskade, motsatta, orangefärgade
- DET: den, de, det, denna, dessa, detta, bägge, vardera, dom
- NOUN: äktenskapet, barnen, samhället, familjen, kvinnan, barnet, mannen, kvinnorna, världen, föräldrarna
- PRON: det, de, sig, vi, den, du, sin, detta, dem, han
- Ind
- ADJ: stor, flera, annan, själv, sådan, viss, annat, ny, sådana, svårt
- ADJ-Part: särskild, ökad, sett, taget, beredd, särskilt, fortsatt, gift, bosatt, oförändrad
- DET: en, ett, varje, samma, någon, några, ingen, vilka, något, vilken
- NOUN: år, barn, del, procent, människor, tid, sätt, arbete, fall, kvinnor
- NUM: en, ett
- PRON: man, vad, en, andra, något, många, alla, allt, var, vilket
- VERB-Part: vald, vänd, hörselskadad, accepterad, förbjudet, förstärkt, förändrad, ifylld, komplicerad, likställd
Degree and Polarity
- Cmp
- ADJ: större, högre, bättre, mindre, äldre, längre, lättare, lägre, yttre, svårare
- ADV: mer, tidigare, mindre, vidare, mera, längre, senare, ytterligare, bättre, närmare
- Pos
- ADJ: olika, andra, nya, många, stora, stor, vissa, hela, flera, annan
- ADV: mycket, helt, ofta, länge, långt, snabbt, relativt, direkt, starkt, säkert
- Sup
- ADJ: flesta, bästa, största, närmaste, högsta, viktigaste, senaste, vanligaste, störst, främsta
- ADV: mest, minst, främst, högst, helst, bäst, oftast, längst, knappast, ytterst
- Neg
- ADV: aldrig, knappast, ingalunda, föga, nu, näppeligen, så, knappt, långt, minst
- CCONJ: varken
- PART: inte, ej, icke
- PRON: sig
Verbal Features
- Imp
- AUX-Fin: Varen
- VERB-Fin: se, låt, ta, ge, jfr, kontrollera, Diskutera, kolla, Läs, byt
- Ind
- AUX-Fin: är, kan, har, måste, skall, skulle, ska, kommer, var, får
- VERB-Fin: har, finns, är, blir, får, gäller, ger, går, kommer, gör
- Sub
- AUX-Fin: vore
- VERB-Fin: vare, vore, Gånge, finge
- Past
- ADJ-Part: särskild, särskilda, ökad, ökade, gifta, sett, taget, handikappade, beredd, bestämda
- AUX-Fin: skulle, var, kunde, hade, borde, ville, fick, torde, vore, blev
- VERB-Fin: blev, fick, hade, var, började, gjorde, kom, gick, fanns, gav
- VERB-Part: påverkade, vald, vänd, hörselskadad, tvungna, accepterad, anpassade, bedövade, diciplinerade, emanciperade
- Pres
- ADJ-Part: följande, beroende, motsvarande, liknande, nuvarande, omfattande, pensionsgrundande, avgörande, krävande, oberoende
- AUX-Fin: är, kan, har, måste, skall, ska, kommer, får, bör, vill
- VERB-Fin: har, finns, är, blir, får, gäller, ger, går, kommer, gör
- Act
- AUX-Fin: är, kan, har, måste, skall, skulle, ska, kommer, var, får
- AUX-Inf: vara, kunna, få, ha, bli, behöva, vilja, komma, dra
- AUX-Sup: varit, kunnat, fått, kommit, blivit, velat
- VERB-Fin: har, är, blir, får, gäller, ger, går, kommer, gör, visar
- VERB-Inf: få, ha, bli, göra, ge, ta, komma, gå, se, vara
- VERB-Sup: fått, blivit, haft, gjort, ökat, kommit, gått, visat, börjat, skett
- Pass
- VERB-Fin: behövs, kallas, beräknas, används, anses, användes, föds, ges, görs, tvingas
- VERB-Inf: användas, göras, tas, ses, anses, sägas, utnyttjas, hållas, kallas, kompletteras
- VERB-Sup: gjorts, nämnts, förändrats, framhållits, sagts, ansetts, inlämnats, byggts, givits, införts
Pronouns, Determiners, Quantifiers
- Art
- DET: en, den, ett, de, det, the, Dom
- PRON: Det
- Dem
- DET: denna, dessa, detta
- PRON: detta, dessa, denna, denne, dennes, dessas
- Ind
- DET: samma, någon, några, något, var, varannan, varje, alla, inget, nån
- PRON: man, andra, många, något, någon, mycket, detsamma, fler, några, sådana
- Int
- DET: vilka, vilken, vilket
- PRON: vad, vem, vilka, vilken, vilket, Vems
- Neg
- DET: ingen, inget, inga, någon, samma
- PRON: ingen, ingenting, inget, inga, ingendera
- Prs
- DET: det, de, den, varje, alla, detta, någon, all, dom, samma
- PRON: det, de, sig, vi, den, du, sin, dem, han, sina
- Rcp
- PRON: varandra, varann, varandras
- Rel
- PRON: som, vilket, vilka, vars, vilken, något, vilkas, man, Vad, de
- Tot
- DET: alla, varje, allt, all, var, bägge, vardera, varenda, vart, vilka
- PRON: alla, var, allt, båda, allting, vart, bägge, bådadera, samtliga, vem
- Card
- NUM: två, tre, en, 1, 20, 2, ett, 1970, 3, 10
- Yes
- PRON: sin, sina, deras, sitt, våra, vår, vårt, dess, din, ditt
Other Features
- Abbr
- Yes
- ADJ: S:t, ev, Kungl, Kungl., Teol, fil, med
- ADP: f
- ADV: t.ex., ca, t ex, bl.a., s k, etc, bl a, dvs, osv, s.k.
- NOUN: kr, %, dr, s., kap., proc, KPI, milj, mån, kl
- VERB-Fin: jfr
- Yes
- Foreign
- Yes
- ADJ: Economic, European, New, United, priori, restante
- ADP: a, in, of
- ADV: sic
- CCONJ: and
- NOUN: capita, companionship, family, versa, vice, Agriculture, Community, Food, Nations, Organization
- Yes
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: vara.
- This corpus uses 14 lemmas as auxiliaries (aux). Examples: kunna, ha, skola, måste, komma, få, vilja, böra, behöva, torde, må, lär, bruka, dra.
- This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: bli.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB-Fin--NOUN (13)
- VERB-Fin--NOUN-Nom (2075)
- VERB-Fin--NOUN-Nom-ADP(till) (1)
- VERB-Fin--PRON (1023)
- VERB-Fin--PRON-Nom (1021)
- VERB-Inf--NOUN (1)
- VERB-Inf--NOUN-Nom (498)
- VERB-Inf--PRON (197)
- VERB-Inf--PRON-Nom (521)
- VERB-Sup--NOUN (3)
- VERB-Sup--NOUN-Nom (275)
- VERB-Sup--PRON (100)
- VERB-Sup--PRON-Nom (152)
- obj
- VERB-Fin--NOUN (34)
- VERB-Fin--NOUN-Acc (1)
- VERB-Fin--NOUN-Gen (1)
- VERB-Fin--NOUN-Nom (1762)
- VERB-Fin--NOUN-Nom-ADP(för) (1)
- VERB-Fin--NOUN-Nom-ADP(mellan) (1)
- VERB-Fin--PRON (160)
- VERB-Fin--PRON-Acc (230)
- VERB-Inf--NOUN (10)
- VERB-Inf--NOUN-Nom (1290)
- VERB-Inf--NOUN-Nom-ADP(för) (1)
- VERB-Inf--PRON (118)
- VERB-Inf--PRON-Acc (149)
- VERB-Sup--NOUN (2)
- VERB-Sup--NOUN-Nom (256)
- VERB-Sup--PRON (26)
- VERB-Sup--PRON-Acc (33)
- iobj
- VERB-Fin--NOUN-Nom (26)
- VERB-Fin--PRON (1)
- VERB-Fin--PRON-Acc (43)
- VERB-Inf--NOUN-Nom (23)
- VERB-Inf--PRON (1)
- VERB-Inf--PRON-Acc (49)
- VERB-Sup--NOUN-Nom (1)
- VERB-Sup--PRON-Acc (12)
Relations Overview
- This corpus uses 9 relation subtypes: acl:cleft, acl:relcl, aux:pass, compound:prt, csubj:pass, flat:name, nmod:poss, nsubj:pass, obl:agent
- The following 1 main types are not used alone, they are always subtyped: flat
- The following 4 relation types are not used in this corpus at all: clf, goeswith, reparandum, dep