home edit page issue tracker

This page pertains to UD version 2.

UD_Chinese-CFL

UD_Chinese-GSD

UD_Chinese-HK

UD_Chinese-PUD

Tokenization and Word Segmentation

Tokenization and Word Segmentation

Tokenization and Word Segmentation

Tokenization and Word Segmentation

  • This corpus contains 451 sentences and 7256 tokens.
  • This corpus contains 4997 sentences and 123283 tokens.
  • This corpus contains 908 sentences and 8701 tokens.
  • This corpus contains 1000 sentences and 21415 tokens.
  • This corpus contains 7256 tokens (100%) that are not followed by a space.
  • This corpus contains 122954 tokens (100%) that are not followed by a space.
  • This corpus contains 8701 tokens (100%) that are not followed by a space.
  • This corpus contains 20322 tokens (95%) that are not followed by a space.
  • This corpus does not contain words with spaces.
  • This corpus does not contain words with spaces.
  • This corpus does not contain words with spaces.
  • This corpus does not contain words with spaces.
  • This corpus does not contain words that contain both letters and punctuation.
  • This corpus contains 45 types of words that contain both letters and punctuation. Examples: #A, DC-10, km/h, #B, #C, #D, #E, #F, #G, -an, A-AVG, AK-47, Arzacq-Arraziguet, Beaune-Sud, Berne-Belp, CI-7957, CRH380B-002, F-15A, F-16A, Frito-Lay, It's, Kink.com, MD-11, Micro-USM, NX-01, Navy's, O., P-700, Pre-rendering, S-IVB, TVS-5, Tu-16, Uhler-Phillips, al-Banna, f(x), g(x), t.163.com, t.qq.com, t.sina.com.cn, t.sohu.com, t.xxxx.com, 一,, 一而再、再而三, 三、, 列夫·達維多維奇
  • This corpus contains 8 types of words that contain both letters and punctuation. Examples: Yes!, D​e​c​l​a​r​a​t​i​o​n​_​o​f​_​R​e​n​u​n​c​i​a​t​i​o​n​_​o​f​_​B​r​i​t​i​s​h​_​C​i​t​i​z​e​n​s​h​i​p, Philip_, Yes!卡, a​r​b​i​t​r​a​r​y​_​u​s​e​_​o​f​_​p​o​w​e​r, 一而再、再而三, 以大欺小!, 計數!
  • This corpus contains 10 types of words that contain both letters and punctuation. Examples: B.C., G.D.P, Jr., King,, St., Traum,, Wi-Fi, Z., Zettel's, al-Jadaan

Morphology

Tags

Morphology

Tags

Morphology

Tags

Morphology

Tags

  • This corpus contains 11 word types tagged as particles (PART): 。, 了, 吗, 吧, 呢, 和, 啊, 嗬, 地, 得, 的
  • This corpus contains 578 word types tagged as particles (PART): 不, 中, 主, 之, 了, 事, 井, 亞, 亭, 人, 今, 代, 令, 位, 低, 佛, 作, 佬, 使, 侯, 俠, 信, 們, 值, 側, 偽, 傳, 僑, 價, 元, 先, 光, 光棍, 內, 公, 兵, 典, 冠, 冢, 冷, 准, 刀, 分, 列, 制, 券, 前, 副, 劇, 劍, 劑, 力, 功, 劣, 包, 化, 區, 半, 卡, 卿, 原, 友, 口, 古, 台, 史, 司, 同, 名, 君, 否, 吧, 周, 味, 和美, 品, 哈爾濱, 員, 商, 單, 嘴, 器, 因, 圈, 國, 圍, 園, 圓, 圖, 團, 土, 地, 坊, 坡, 型, 城, 埤, 基, 堂, 堡, 堤, 報, 場, 塔, 塘, 墓, 墟, 墳, 壓, 士, 外, 多, 夜, 夢, 大, 天, 夾, 奏, 套, 女, 奸, 好, 妃, 妹, 始, 娘, 婆, 婦, 子, 孔, 字, 季, 學, 宏, 宗, 官, 客, 室, 宮, 家, 富, 審, 寬, 寺, 將, 對, 小, 尖, 局, 屋, 屍, 展, 層, 屬, 屯, 山, 岩, 岸, 峰, 島, 峽, 崖, 崗, 嶺, 嶼, 川, 州, 工, 巷, 市, 布, 帝, 師, 席, 帶, 帽, 幣, 幫, 年, 床, 底, 店, 府, 度, 座, 庫, 庭, 廟, 廠, 廬, 廳, 廷, 式, 強, 彈, 彎, 形, 後, 徑, 徒, 得, 御, 微, 徽, 心, 志, 快, 性, 怪, 恆, 感, 態, 戀, 戰, 戲, 戶, 房, 所, 手, 打, 拖, 擋, 支, 教, 數, 文, 新, 方, 族, 旗, 日, 星, 晚, 暖, 暗, 曲, 書, 會, 月, 服, 朝, 期, 本, 材, 村, 束, 杯, 板, 林, 架, 校, 株, 核, 格, 案, 桿, 梁, 棍, 棒, 棚, 業, 榜, 槍, 槳, 樂, 樓, 樹, 橋, 橙, 機, 橢, 檔, 櫃, 權, 次, 款, 歌, 正, 死, 段, 殿, 母, 毒, 氏, 氣, 水, 江, 池, 河, 沼, 泉, 法, 波, 洋, 洞, 洲, 派, 浦, 海, 涌, 液, 淡, 深, 混, 淺, 清, 渡, 港, 湖, 準, 溝, 溥儀, 溪, 滿, 滿洲, 潮, 澡, 澳, 濁, 濃, 灘, 灣, 火, 炎, 炮, 烴, 煙, 熱, 營, 爐, 父, 爺, 牆, 片, 版, 牌, 物, 犯, 狀, 狂, 狗, 獅, 獎, 率, 王, 班, 球, 琴, 生, 男, 町, 界, 畔, 畫, 病, 症, 癌, 癖, 的, 皮, 盃, 目, 省, 眼, 眾, 督, 短, 石, 砲, 硅, 碑, 碼, 礁, 礦, 社, 神, 祠, 禮, 秀, 秋, 科, 秤, 稅, 種, 窟, 窯, 站, 端, 符, 笨, 等, 管, 箱, 節, 篇, 籍, 米, 粉, 精, 系, 紀, 紅, 紋, 純, 紙, 級, 素, 組, 結, 綉, 綜, 綫, 綱, 網, 線, 縣, 總, 罩, 罪, 署, 羊, 美, 群, 翁, 老, 者, 聖, 肉, 胎, 胚, 能, 腔, 腳, 腿, 膜, 膠, 臉, 臨, 臺, 舊, 舞, 船, 艇, 艙, 艦, 色, 花, 茶, 莊, 菌, 菜, 葉, 著, 藍, 藤, 藥, 藩, 處, 號, 蛙, 行, 術, 街, 衛, 衣, 表, 裔, 裙, 製, 褲, 親, 觀, 角, 記, 詞, 詩, 話, 誌, 語, 說, 課, 論, 證, 譜, 變, 谷, 豆, 象, 貓, 費, 資, 質, 賽, 超, 路, 躁, 身, 車, 軍, 軒, 軟, 軸, 輕, 近, 迷, 通, 週, 過, 道, 遠, 邊, 邦, 邨, 郎, 郡, 部, 都, 鄉, 配, 酒, 酸, 醣, 醫, 里, 重, 量, 金, 針, 銘, 鋼, 錄, 錦, 鍋, 鍵, 鎮, 鏈, 鏡, 鐵, 長, 門, 間, 閣, 關, 院, 陵, 陸, 隊, 階, 際, 集, 電, 非, 面, 音, 頂, 頭, 題, 額, 類, 風, 飯, 餅, 餐, 館, 饃, 馬, 骨, 體, 高, 鬥, 鬼, 魚, 鮮, 鳥, 鹼, 點, 黨, 齋
  • This corpus contains 23 word types tagged as particles (PART): 丫, 中, 之, 了, 來, 個, 吧, 呀, 呢, 啊, 啦, 喇, 嗎, 嘛, 地, 好了, 就, 得, 所, 的, 的話, 等, 而已
  • This corpus contains 29 word types tagged as particles (PART): 之, 了, 人, 區, 呢, 嗎, 地, 家, 得, 河, 法, 的, 瞭, 緣, 罪, 者, 肺, 舟, 著, 處, 號, 街, 賽, 過, 配, 鎊, 體, 點, 黨
  • This corpus contains 44 lemmas tagged as pronouns (PRON): 一切, 为什么, 人, 人家, 什么, 他, 他们, 你, 你们, 其, 其中, 其他, 别, 别人, 到处, 另外, 各, 咱们, 哪个, 哪儿, 哪里, 大家, 女士们, 她, 她们, 它, 怎么样, 我, 我们, 我门, 所有, 有的, 每, 自己, 谁, 这, 这儿, 这样, 这里, 那, 那儿, 那样, 那里, 首先
  • This corpus contains 44 lemmas tagged as pronouns (PRON): 之, 什麼, 他, 他倆, 何, 何方, 你, 個人, 其, 各自, 哪, 哪裡, 大家, 她, 她倆, 如何, 妳, 它, 對方, 彼此, 您, 我, 本人, 本地, 本身, 此, 熟, 牠, 甚麼, 祂, 自家, 自己, 自我, 自身, 誰, 這, 這些, 這兒, 這樣, 這裡, 那, 那樣, 那裏, 那裡
  • This corpus contains 1 lemmas tagged as pronouns (PRON): _
  • This corpus contains 1 lemmas tagged as pronouns (PRON): _
  • This corpus contains 30 lemmas tagged as determiners (DET): 一些, 一点, 个, 什么, 以上, 几, 别的, 前, 另, 各, 哪, 哪个, 很多, 所有, 整, 有些, 有的, 本, 每, 许多, 许许多多, 这, 这些, 这样, 这里, 那, 那个, 那些, 那样, 那里
  • This corpus contains 104 lemmas tagged as determiners (DET): 一切, 上, 下, 以上, 以下, 任, 任何, 何, 全, 全套, 全部, 全體, 其他, 其它, 其餘, 別, 前, 前任, 另, 另外, 各, 各個, 各州, 各式, 各種, 各種各樣, 各級, 各項, 各類, 同, 同年, 後, 所有, 整, 整個, 整場, 整塊, 整套, 整所, 整架, 整片, 整顆, 是次, 有的, 本, 本屆, 本班, 某, 某些, 某個, 某種, 此, 此套, 此次, 此種, 此等, 此項, 此類, 歷屆, 毎年, 每, 每位, 每個, 每元, 每卡, 每周, 每天, 每年, 每座, 每戶, 每所, 每日, 每枚, 每次, 每段, 每片, 每秒, 每組, 每週, 每邊, 每間, 每隊, 每集, 當屆, 眾, 該, 該屆, 該批, 該族, 該條, 該段, 該組, 該集, 諸, 這, 這些, 這次, 這種, 那, 那些, 首, 首任, 首條, 首部
  • This corpus contains 1 lemmas tagged as determiners (DET): _
  • This corpus contains 1 lemmas tagged as determiners (DET): _
  • Out of the above, 12 lemmas occurred sometimes as PRON and sometimes as DET: 什么, 各, 哪个, 所有, 有的, 每, 这, 这样, 这里, 那, 那样, 那里
  • Out of the above, 5 lemmas occurred sometimes as PRON and sometimes as DET: 何, 此, 這, 這些, 那
  • Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
  • Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
  • This corpus contains 30 lemmas tagged as auxiliaries (AUX): 不得, 了, 会, 似乎, 似的, 可以, 可能, 喜欢, 回, 好像, 宁愿, 希望, 应该, 得, 必须, 想, 愿意, 懒得, 敢, 是, 没, 没有, 爱, 着, 能, 要, 起来, 过, 这, 需要
  • This corpus contains 165 lemmas tagged as auxiliaries (AUX): 一爭, 上表, 不可, 不夠, 不得, 不想, 不應, 不是, 不會, 不準, 不肯, 不能, 不要, 不該, 不需, 不願, 且是, 並非, 也是, 亦是, 亦為, 仍是, 仍算, 令, 以為, 以爲, 來, 便是, 保存, 保級, 修復, 做, 傳, 像, 出手, 分布, 則是, 則為, 努力, 包裹, 即, 卻是, 又是, 只是, 只能, 可, 可以, 可能, 吃, 喜, 執政, 增長, 夠, 如, 如同, 實屬, 對此, 就是, 差, 形容, 形成, 影響, 待, 得, 得寵, 必, 必須, 想, 愛, 感到, 感覺, 應, 應當, 應該, 或是, 才是, 打, 排行, 接唱, 接觸, 控制, 推進, 損失, 敢, 日趨, 是, 是否, 是否是, 更是, 更為, 更趨, 會, 有, 有些, 未能, 染色, 欲, 正是, 沒有, 沒能, 治軍, 流沙, 涉世, 深感, 減慢, 準備, 為, 為人, 爭辯, 爲, 獲利, 畫, 當, 發展, 發育, 監管, 看, 看似, 看得, 私交, 突感, 管理, 而是, 而非, 肯, 能, 能否, 能夠, 表現, 表示, 裝, 要, 要求, 覺得, 認為, 認識, 誤信, 請, 謂, 變, 變得, 負債, 趨, 趨於, 辦, 辦學, 連任, 運作, 達到, 還是, 都是, 開口, 開始, 關心, 降解, 離開, 難過, 需, 需要, 非, 靠, 須, 願意, 顯, 顯得
  • This corpus contains 1 lemmas tagged as auxiliaries (AUX): _
  • This corpus contains 1 lemmas tagged as auxiliaries (AUX): _
  • Out of the above, 15 lemmas occurred sometimes as AUX and sometimes as VERB: 了, 会, 喜欢, 回, 好像, 希望, 得, 想, 是, 没有, 爱, 要, 起来, 过, 需要
  • Out of the above, 96 lemmas occurred sometimes as AUX and sometimes as VERB: 上表, 不夠, 不得, 不是, 並非, 也是, 亦為, 令, 以為, 來, 保存, 保級, 修復, 做, 傳, 像, 出手, 分布, 則是, 努力, 即, 卻是, 又是, 吃, 執政, 增長, 夠, 如, 如同, 對此, 就是, 形容, 形成, 影響, 待, 得, 得寵, 必須, 想, 愛, 感到, 打, 排行, 接唱, 接觸, 控制, 推進, 損失, 是, 是否, 有, 有些, 染色, 正是, 沒有, 準備, 為, 爲, 獲利, 畫, 當, 發展, 發育, 監管, 看, 管理, 而是, 而非, 表現, 表示, 裝, 要, 要求, 覺得, 認為, 認識, 誤信, 請, 謂, 變, 趨, 辦, 連任, 運作, 達到, 都是, 開口, 開始, 關心, 降解, 離開, 需, 需要, 非, 靠, 顯得
  • Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
  • Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
  • This corpus does not use the VerbForm feature.
  • This corpus does not use the VerbForm feature.
  • This corpus does not use the VerbForm feature.
  • This corpus does not use the VerbForm feature.

Nominal Features

Nominal Features

Nominal Features

Nominal Features

  • Plur
    • NOUN: 人們
    • PART: 們
    • PRON: 他們, 它們, 我們, 牠們, 她們
  • Plur
    • NOUN: 人們
    • PRON: 他們, 我們, 它們, 你們, 她們, 牠們
  • Gen
    • ADP: 之外
    • PART: 的, 之, 地
  • Gen
    • PART: 的, 之

Degree and Polarity

Degree and Polarity

Degree and Polarity

Degree and Polarity

  • Neg
    • ADV: 不, 未, 沒, 別, 無
  • Neg
    • ADV: 不, 未, 勿

Verbal Features

Verbal Features

Verbal Features

Verbal Features

  • Perf
    • PART: 了, 過
    • X: 了
  • Perf
    • PART: 了, 過, 瞭
  • Prog
    • PART: 著
  • Prog
    • PART: 著
  • Inter
    • X: 呢, 嗎, 啊
  • Cau
    • ADP: 以
    • VERB: 將, 以, 使, 把, 讓, 使得, 令, 導致, 要求, 派
  • Cau
    • ADP: 把, 將
    • AUX: 將, 把
    • VERB: 讓, 使, 令, 導致, 以, 以至, 使得, 任命, 帶領, 敦促
  • Pass
    • VERB: 被, 為
  • Pass
    • ADP: 被
    • AUX: 被

Pronouns, Determiners, Quantifiers

Pronouns, Determiners, Quantifiers

Pronouns, Determiners, Quantifiers

Pronouns, Determiners, Quantifiers

  • Card
    • NUM: 一, 兩, 三, 1, 第一, 3, 12, 5, 2, 8
  • Card
    • NUM: 一, 兩, 很多, 三, 許多, 六, 多, 20, 10, 十
  • Ord
    • ADJ: 第一, 第二, 第三, 第31, 第45, 第96, 第四
  • 1
    • PRON: 我, 我們
  • 1
    • PRON: 我, 我們
  • 2
    • PRON: 你, 妳, 您
  • 2
    • PRON: 你, 您, 你們
  • 3
    • PRON: 他, 其, 她, 它, 他們, 它們, 牠們, 她們, 牠, 祂
  • 3
    • PRON: 他, 她, 其, 他們, 它, 它們, 她們, 牠們

Other Features

Other Features

Other Features

Other Features

  • Foreign
    • Yes
      • X: Anaya, Film, de, the, Amin, Antilles, Atkinson, Avery, Aviva, Bass
  • NounType
    • Clf
      • ADV: 些
      • NOUN: 個, 元, 位, 塊, 次, 天, 分鐘, 張, 份, 分

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 2 lemmas as copulas (cop). Examples: 是、 就是.

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 135 lemmas as copulas (cop). Examples: 是、 為、 也是、 就是、 不是、 即、 都是、 感到、 非、 則是、 變、 亦是、 亦為、 而是、 並非、 則為、 發展、 而非、 表現、 影響、 還是、 顯得、 做、 卻是、 夠、 如、 控制、 是否是、 為人、 爲、 獲利、 看似、 裝、 謂、 變得、 連任、 一爭、 上表、 不夠、 且是、 仍是、 仍算、 令、 以為、 以爲、 低、 來、 便宜、 便是、 保存.

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: _.

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: _.
  • This corpus uses 30 lemmas as auxiliaries (aux). Examples: 了、 着、 要、 会、 能、 想、 过、 可以、 没、 应该、 爱、 得、 敢、 需要、 可能、 没有、 不得、 似乎、 似的、 喜欢、 回、 好像、 宁愿、 就、 希望、 必须、 愿意、 懒得、 起来、 这.
  • This corpus uses 40 lemmas as auxiliaries (aux). Examples: 會、 可以、 可、 能、 要、 可能、 必須、 能夠、 不會、 不能、 想、 需要、 需、 應、 未能、 不可、 不得、 須、 不應、 不願、 應該、 欲、 願意、 不想、 必、 不需、 請、 不準、 不肯、 不要、 不該、 只能、 得、 愛、 應當、 敢、 沒能、 當、 肯、 能否.
  • This corpus uses 3 lemmas as passive auxiliaries (aux:pass). Examples: 被、 為、 把.
  • This corpus uses 1 lemmas as auxiliaries (aux). Examples: _.
  • This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: _.
  • This corpus uses 1 lemmas as auxiliaries (aux). Examples: _.
  • This corpus uses 1 lemmas as passive auxiliaries (aux:pass). Examples: _.

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (126)
    • VERB--NOUN-ADP(在) (1)
    • VERB--PRON (393)

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (3989)
    • VERB--NOUN-ADP(以) (1)
    • VERB--NOUN-ADP(為) (1)
    • VERB--PRON (725)

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (154)
    • VERB--NOUN-ADP(_) (1)
    • VERB--PRON (419)
    • VERB--PRON-ADP(_) (1)

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (822)
    • VERB--PRON (336)
  • obj
    • VERB--NOUN (394)
    • VERB--PRON (90)
  • obj
    • VERB--NOUN (5721)
    • VERB--PRON (120)
  • obj
    • VERB--NOUN (505)
    • VERB--PRON (120)
    • VERB--PRON-ADP(_) (2)
  • obj
    • VERB--NOUN (1126)
    • VERB--PRON (48)
  • iobj
    • VERB--NOUN (1)
    • VERB--PRON (5)
    • VERB--PRON-ADP(给) (1)
  • iobj
    • VERB--NOUN (44)
    • VERB--PRON (8)
  • iobj
    • VERB--PRON (7)
  • iobj
    • VERB--NOUN (9)
    • VERB--PRON (1)

Relations Overview

Relations Overview

Relations Overview

Relations Overview