UD Chinese GSD
Language: Chinese (code: zh
)
Family: Sino-Tibetan
This treebank has been part of Universal Dependencies since the UD v1.3 release.
The following people have contributed to making this treebank part of UD: Mo Shen, Ryan McDonald, Daniel Zeman.
Repository: UD_Chinese-GSD
Search this treebank on-line: PML-TQ
Download all treebanks: UD 2.2
License: CC BY-NC-SA 4.0
Genre: wiki
Questions, comments? General annotation questions (either Chinese-specific or cross-linguistic) can be raised in the main UD issue tracker. You can report bugs in this treebank in the treebank-specific issue tracker on Github. If you want to collaborate, please contact [zeman (æt) ufal • mff • cuni • cz]. The UD version of this treebank currently does not have a maintainer. If you know the language and want to help, please consider adopting the treebank.
Annotation | Source |
---|---|
Lemmas | assigned by a program, not checked manually |
UPOS | annotated manually in non-UD style, automatically converted to UD |
XPOS | annotated manually |
Features | assigned by a program, not checked manually |
Relations | annotated manually in non-UD style, automatically converted to UD |
Description
Traditional Chinese Universal Dependencies Treebank annotated and converted by Google.
Acknowledgments
Statistics of UD Chinese GSD
POS Tags
ADJ – ADP – ADV – AUX – CCONJ – DET – NOUN – NUM – PART – PRON – PROPN – PUNCT – SYM – VERB – X
Features
Aspect – Case – Mood – Number – NumType – Person – Polarity – Voice
Relations
acl – acl:relcl – advcl – advmod – amod – appos – aux – aux:caus – aux:pass – case – case:aspect – case:dec – case:pref – case:suff – cc – ccomp – clf – conj – cop – csubj – csubj:pass – dep – det – discourse – dislocated – flat:foreign – iobj – mark – mark:advb – mark:comp – mark:relcl – nmod – nmod:tmod – nsubj – nsubj:pass – nummod – obj – obl – orphan – punct – root – vocative – xcomp
Tokenization and Word Segmentation
- This corpus contains 4997 sentences and 123283 tokens.
- This corpus contains 122954 tokens (100%) that are not followed by a space.
- This corpus does not contain words with spaces.
- This corpus contains 45 types of words that contain both letters and punctuation. Examples: #A, DC-10, km/h, #B, #C, #D, #E, #F, #G, -an, A-AVG, AK-47, Arzacq-Arraziguet, Beaune-Sud, Berne-Belp, CI-7957, CRH380B-002, F-15A, F-16A, Frito-Lay, It's, Kink.com, MD-11, Micro-USM, NX-01, Navy's, O., P-700, Pre-rendering, S-IVB, TVS-5, Tu-16, Uhler-Phillips, al-Banna, f(x), g(x), t.163.com, t.qq.com, t.sina.com.cn, t.sohu.com, t.xxxx.com, 一,, 一而再、再而三, 三、, 列夫·達維多維奇
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SYM, VERB, X
- This corpus does not use the following tags: SCONJ, INTJ
- This corpus contains 578 word types tagged as particles (PART): 不, 中, 主, 之, 了, 事, 井, 亞, 亭, 人, 今, 代, 令, 位, 低, 佛, 作, 佬, 使, 侯, 俠, 信, 們, 值, 側, 偽, 傳, 僑, 價, 元, 先, 光, 光棍, 內, 公, 兵, 典, 冠, 冢, 冷, 准, 刀, 分, 列, 制, 券, 前, 副, 劇, 劍, 劑, 力, 功, 劣, 包, 化, 區, 半, 卡, 卿, 原, 友, 口, 古, 台, 史, 司, 同, 名, 君, 否, 吧, 周, 味, 和美, 品, 哈爾濱, 員, 商, 單, 嘴, 器, 因, 圈, 國, 圍, 園, 圓, 圖, 團, 土, 地, 坊, 坡, 型, 城, 埤, 基, 堂, 堡, 堤, 報, 場, 塔, 塘, 墓, 墟, 墳, 壓, 士, 外, 多, 夜, 夢, 大, 天, 夾, 奏, 套, 女, 奸, 好, 妃, 妹, 始, 娘, 婆, 婦, 子, 孔, 字, 季, 學, 宏, 宗, 官, 客, 室, 宮, 家, 富, 審, 寬, 寺, 將, 對, 小, 尖, 局, 屋, 屍, 展, 層, 屬, 屯, 山, 岩, 岸, 峰, 島, 峽, 崖, 崗, 嶺, 嶼, 川, 州, 工, 巷, 市, 布, 帝, 師, 席, 帶, 帽, 幣, 幫, 年, 床, 底, 店, 府, 度, 座, 庫, 庭, 廟, 廠, 廬, 廳, 廷, 式, 強, 彈, 彎, 形, 後, 徑, 徒, 得, 御, 微, 徽, 心, 志, 快, 性, 怪, 恆, 感, 態, 戀, 戰, 戲, 戶, 房, 所, 手, 打, 拖, 擋, 支, 教, 數, 文, 新, 方, 族, 旗, 日, 星, 晚, 暖, 暗, 曲, 書, 會, 月, 服, 朝, 期, 本, 材, 村, 束, 杯, 板, 林, 架, 校, 株, 核, 格, 案, 桿, 梁, 棍, 棒, 棚, 業, 榜, 槍, 槳, 樂, 樓, 樹, 橋, 橙, 機, 橢, 檔, 櫃, 權, 次, 款, 歌, 正, 死, 段, 殿, 母, 毒, 氏, 氣, 水, 江, 池, 河, 沼, 泉, 法, 波, 洋, 洞, 洲, 派, 浦, 海, 涌, 液, 淡, 深, 混, 淺, 清, 渡, 港, 湖, 準, 溝, 溥儀, 溪, 滿, 滿洲, 潮, 澡, 澳, 濁, 濃, 灘, 灣, 火, 炎, 炮, 烴, 煙, 熱, 營, 爐, 父, 爺, 牆, 片, 版, 牌, 物, 犯, 狀, 狂, 狗, 獅, 獎, 率, 王, 班, 球, 琴, 生, 男, 町, 界, 畔, 畫, 病, 症, 癌, 癖, 的, 皮, 盃, 目, 省, 眼, 眾, 督, 短, 石, 砲, 硅, 碑, 碼, 礁, 礦, 社, 神, 祠, 禮, 秀, 秋, 科, 秤, 稅, 種, 窟, 窯, 站, 端, 符, 笨, 等, 管, 箱, 節, 篇, 籍, 米, 粉, 精, 系, 紀, 紅, 紋, 純, 紙, 級, 素, 組, 結, 綉, 綜, 綫, 綱, 網, 線, 縣, 總, 罩, 罪, 署, 羊, 美, 群, 翁, 老, 者, 聖, 肉, 胎, 胚, 能, 腔, 腳, 腿, 膜, 膠, 臉, 臨, 臺, 舊, 舞, 船, 艇, 艙, 艦, 色, 花, 茶, 莊, 菌, 菜, 葉, 著, 藍, 藤, 藥, 藩, 處, 號, 蛙, 行, 術, 街, 衛, 衣, 表, 裔, 裙, 製, 褲, 親, 觀, 角, 記, 詞, 詩, 話, 誌, 語, 說, 課, 論, 證, 譜, 變, 谷, 豆, 象, 貓, 費, 資, 質, 賽, 超, 路, 躁, 身, 車, 軍, 軒, 軟, 軸, 輕, 近, 迷, 通, 週, 過, 道, 遠, 邊, 邦, 邨, 郎, 郡, 部, 都, 鄉, 配, 酒, 酸, 醣, 醫, 里, 重, 量, 金, 針, 銘, 鋼, 錄, 錦, 鍋, 鍵, 鎮, 鏈, 鏡, 鐵, 長, 門, 間, 閣, 關, 院, 陵, 陸, 隊, 階, 際, 集, 電, 非, 面, 音, 頂, 頭, 題, 額, 類, 風, 飯, 餅, 餐, 館, 饃, 馬, 骨, 體, 高, 鬥, 鬼, 魚, 鮮, 鳥, 鹼, 點, 黨, 齋
- This corpus contains 44 lemmas tagged as pronouns (PRON): 之, 什麼, 他, 他倆, 何, 何方, 你, 個人, 其, 各自, 哪, 哪裡, 大家, 她, 她倆, 如何, 妳, 它, 對方, 彼此, 您, 我, 本人, 本地, 本身, 此, 熟, 牠, 甚麼, 祂, 自家, 自己, 自我, 自身, 誰, 這, 這些, 這兒, 這樣, 這裡, 那, 那樣, 那裏, 那裡
- This corpus contains 104 lemmas tagged as determiners (DET): 一切, 上, 下, 以上, 以下, 任, 任何, 何, 全, 全套, 全部, 全體, 其他, 其它, 其餘, 別, 前, 前任, 另, 另外, 各, 各個, 各州, 各式, 各種, 各種各樣, 各級, 各項, 各類, 同, 同年, 後, 所有, 整, 整個, 整場, 整塊, 整套, 整所, 整架, 整片, 整顆, 是次, 有的, 本, 本屆, 本班, 某, 某些, 某個, 某種, 此, 此套, 此次, 此種, 此等, 此項, 此類, 歷屆, 毎年, 每, 每位, 每個, 每元, 每卡, 每周, 每天, 每年, 每座, 每戶, 每所, 每日, 每枚, 每次, 每段, 每片, 每秒, 每組, 每週, 每邊, 每間, 每隊, 每集, 當屆, 眾, 該, 該屆, 該批, 該族, 該條, 該段, 該組, 該集, 諸, 這, 這些, 這次, 這種, 那, 那些, 首, 首任, 首條, 首部
- Out of the above, 5 lemmas occurred sometimes as PRON and sometimes as DET: 何, 此, 這, 這些, 那
- This corpus contains 165 lemmas tagged as auxiliaries (AUX): 一爭, 上表, 不可, 不夠, 不得, 不想, 不應, 不是, 不會, 不準, 不肯, 不能, 不要, 不該, 不需, 不願, 且是, 並非, 也是, 亦是, 亦為, 仍是, 仍算, 令, 以為, 以爲, 來, 便是, 保存, 保級, 修復, 做, 傳, 像, 出手, 分布, 則是, 則為, 努力, 包裹, 即, 卻是, 又是, 只是, 只能, 可, 可以, 可能, 吃, 喜, 執政, 增長, 夠, 如, 如同, 實屬, 對此, 就是, 差, 形容, 形成, 影響, 待, 得, 得寵, 必, 必須, 想, 愛, 感到, 感覺, 應, 應當, 應該, 或是, 才是, 打, 排行, 接唱, 接觸, 控制, 推進, 損失, 敢, 日趨, 是, 是否, 是否是, 更是, 更為, 更趨, 會, 有, 有些, 未能, 染色, 欲, 正是, 沒有, 沒能, 治軍, 流沙, 涉世, 深感, 減慢, 準備, 為, 為人, 爭辯, 爲, 獲利, 畫, 當, 發展, 發育, 監管, 看, 看似, 看得, 私交, 突感, 管理, 而是, 而非, 肯, 能, 能否, 能夠, 表現, 表示, 裝, 要, 要求, 覺得, 認為, 認識, 誤信, 請, 謂, 變, 變得, 負債, 趨, 趨於, 辦, 辦學, 連任, 運作, 達到, 還是, 都是, 開口, 開始, 關心, 降解, 離開, 難過, 需, 需要, 非, 靠, 須, 願意, 顯, 顯得
- Out of the above, 96 lemmas occurred sometimes as AUX and sometimes as VERB: 上表, 不夠, 不得, 不是, 並非, 也是, 亦為, 令, 以為, 來, 保存, 保級, 修復, 做, 傳, 像, 出手, 分布, 則是, 努力, 即, 卻是, 又是, 吃, 執政, 增長, 夠, 如, 如同, 對此, 就是, 形容, 形成, 影響, 待, 得, 得寵, 必須, 想, 愛, 感到, 打, 排行, 接唱, 接觸, 控制, 推進, 損失, 是, 是否, 有, 有些, 染色, 正是, 沒有, 準備, 為, 爲, 獲利, 畫, 當, 發展, 發育, 監管, 看, 管理, 而是, 而非, 表現, 表示, 裝, 要, 要求, 覺得, 認為, 認識, 誤信, 請, 謂, 變, 趨, 辦, 連任, 運作, 達到, 都是, 開口, 開始, 關心, 降解, 離開, 需, 需要, 非, 靠, 顯得
- This corpus does not use the VerbForm feature.
Nominal Features
- Plur
- NOUN: 人們
- PART: 們
- PRON: 他們, 它們, 我們, 牠們, 她們
- Gen
- ADP: 之外
- PART: 的, 之, 地
Degree and Polarity
- Neg
- ADV: 不, 未, 沒, 別, 無
Verbal Features
- Perf
- PART: 了, 過
- X: 了
- Prog
- PART: 著
- Inter
- X: 呢, 嗎, 啊
- Cau
- ADP: 以
- VERB: 將, 以, 使, 把, 讓, 使得, 令, 導致, 要求, 派
- Pass
- VERB: 被, 為
Pronouns, Determiners, Quantifiers
- Card
- NUM: 一, 兩, 三, 1, 第一, 3, 12, 5, 2, 8
- 1
- PRON: 我, 我們
- 2
- PRON: 你, 妳, 您
- 3
- PRON: 他, 其, 她, 它, 他們, 它們, 牠們, 她們, 牠, 祂
Other Features
Syntax
Auxiliary Verbs and Copula
- This corpus uses 135 lemmas as copulas (cop). Examples: 是、 為、 也是、 就是、 不是、 即、 都是、 感到、 非、 則是、 變、 亦是、 亦為、 而是、 並非、 則為、 發展、 而非、 表現、 影響、 還是、 顯得、 做、 卻是、 夠、 如、 控制、 是否是、 為人、 爲、 獲利、 看似、 裝、 謂、 變得、 連任、 一爭、 上表、 不夠、 且是、 仍是、 仍算、 令、 以為、 以爲、 低、 來、 便宜、 便是、 保存.
- This corpus uses 40 lemmas as auxiliaries (aux). Examples: 會、 可以、 可、 能、 要、 可能、 必須、 能夠、 不會、 不能、 想、 需要、 需、 應、 未能、 不可、 不得、 須、 不應、 不願、 應該、 欲、 願意、 不想、 必、 不需、 請、 不準、 不肯、 不要、 不該、 只能、 得、 愛、 應當、 敢、 沒能、 當、 肯、 能否.
- This corpus uses 3 lemmas as passive auxiliaries (aux:pass). Examples: 被、 為、 把.
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (3989)
- VERB--NOUN-ADP(以) (1)
- VERB--NOUN-ADP(為) (1)
- VERB--PRON (725)
- obj
- VERB--NOUN (5721)
- VERB--PRON (120)
- iobj
- VERB--NOUN (44)
- VERB--PRON (8)
Relations Overview
- This corpus uses 14 relation subtypes: acl:relcl, aux:caus, aux:pass, case:aspect, case:dec, case:pref, case:suff, csubj:pass, flat:foreign, mark:advb, mark:comp, mark:relcl, nmod:tmod, nsubj:pass
- The following 1 main types are not used alone, they are always subtyped: flat
- The following 7 relation types are not used in this corpus at all: expl, fixed, compound, list, parataxis, goeswith, reparandum