home edit page issue tracker

This page pertains to UD version 2.

UD_Indonesian-GSD

UD_Indonesian-PUD

Tokenization and Word Segmentation

Tokenization and Word Segmentation

  • This corpus contains 5593 sentences and 121923 tokens.
  • This corpus contains 1000 sentences and 19900 tokens.
  • This corpus contains 16358 tokens (13%) that are not followed by a space.
  • This corpus contains 5067 tokens (25%) that are not followed by a space.
  • This corpus does not contain words with spaces.
  • This corpus does not contain words with spaces.
  • This corpus contains 124 types of words that contain both letters and punctuation. Examples: &, km&sup2, orang-orang, benar-benar, &nbsp, laki-laki, p​e​r​t​a​n​y​a​a​n​-​p​e​r​t​a​n​y​a​a​n, Moody's, Rubik's, berlaksa-laksa, diam-diam, hal-hal, hamba-Ku, kata-kata, tanda-tanda, 14&nbsp, 22&nbsp, 36&nbsp, 40&nbsp, 764&nbsp, Anggota-anggota, Aphrodite's, Assisted_GPS, Bird's, Cinta-Dante-Cahaya, Dosen-dosen, GL_ARB_robustness, GL_EXT_robustness, He's, Heaven's, ID&T, It's, Ja's, Jane's, Levy's, Lloyd's, M&D, Nama-Nya, Negara-negara, P&G, PEI-AISAH, Pepper's, Punk's, Rasul-Nya, Robert's, She's, TV's, Tiba-tiba, Valve's, Vol.
  • This corpus contains 33 types of words that contain both letters and punctuation. Examples: -an, ke-, A.S., Nn., No., St., Tn., B.C., Ms., 'Ya, -agen, A.S, B-29, Didn't, Don't, Hitchhiker's, I., Jr., M.A., Mr., Ny., Pasca-, U.S., Under-Secretary, Z., Zettel’s, al-Jadaan, anti-, men-, pro-, sampai-sampai, wi-fi, “luar

Morphology

Tags

Morphology

Tags

  • This corpus contains 36 word types tagged as particles (PART): Berdasar, Hei, Iye, Jadi, Loh, Tuh, belum, bersorak, bukan, bukankah, bukanlah, bukannya, ga, hai, jangan, kan, keluar, kok, koq, lah, membelinya, non, nya, pun, silakan, tak, tanpa, tercetusnya, terkejutnya, tiada, tidak, tidakkah, tidaklah, tidaknya, ya, yang
  • This corpus contains 9 word types tagged as particles (PART): kah, kan, lah, me, nya, pe, per, pun, se
  • This corpus contains 75 lemmas tagged as pronouns (PRON): a, abang, ada, adanya, agar, aku, anak, anda, apa, bagaimana, bagaimanasebuah, bahwa, banyak, beberapa, begitu, beliau, berapa, berdiri, berkat, beta, bila, bilamana, dekat, demikian, dia, dimana, diri, engkau, gimana, i, ia, ini, isi, it, itu, jadi, jang, kalian, kami, kamu, kapan, kau, kenapa, keseluruhan, kesemuanya, ketika, kita, kita.dan, ku, mahabharata, mana, manakala, media, mengapa, mereka, nya, para, perang, saat, saya, sebelum, sedangkan, segala, segenap, sejumlah, semua, sendiri, seorang, siapa, sini, uskup, vertebrata, yang, yg, your
  • This corpus contains 1 lemmas tagged as pronouns (PRON): _
  • This corpus contains 110 lemmas tagged as determiners (DET): 2, a, al, an, aneka, apa, bagaimana, bagi, baik, banyak, beberapa, begini, begitu, berapa, berbagai, berberapa, berdua, berikut, berragam, buah, buruh, demikian, dibeberapa, dr, gepenglah, how, in, ini, itu, itua, jadi, ke, kebanyakan, kedua, keempat, kelima, kemudian, kenapa, keseluruhan, ketiga, khususnya, la, lain, lainnya, macam, maka, mana, masing, mayoritas, nya, oh, orang, para, penbantaian, per, pituruh, pula, pun, ratusan, ribuan, salah, sama, sang, satu, satusatunya, sauatu, se, seantero, sebagaian, sebagian, sebua, sebuah, sedikit, sedikitnya, seekor, segala, segenap, sehubungan, sejumlah, sekali, sekelompok, sekeping, sekitar, sekumpulan, seluruh, semacam, semangkuk, sementara, semua, sendiri, seorang, sepasang, sepucuk, serangkaian, sesuatu, setiap, si, stu, suatu, tangguh, tersebut, tertentu, tesebut, tetap, the, tiap, tsb, tujuh, uap, yaitu
  • This corpus contains 1 lemmas tagged as determiners (DET): _
  • Out of the above, 22 lemmas occurred sometimes as PRON and sometimes as DET: a, apa, bagaimana, banyak, beberapa, begitu, berapa, demikian, ini, itu, jadi, kenapa, keseluruhan, mana, nya, para, segala, segenap, sejumlah, semua, sendiri, seorang
  • Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
  • This corpus contains 3 lemmas tagged as auxiliaries (AUX): adalah, ialah, rata
  • This corpus contains 1 lemmas tagged as auxiliaries (AUX): _
  • Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: adalah
  • Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
  • This corpus does not use the VerbForm feature.
  • This corpus does not use the VerbForm feature.

Nominal Features

Nominal Features

  • Fem
    • NOUN: seniwati
    • PROPN: Indrawati, Selawati
  • Masc
    • ADJ: dermawan
    • NOUN: ilmuwan, bangsawan, fisikawan, karyawan, karyawannya, rohaniwan, wisatawan, bangsawannya
    • PROPN: Taiwan, Belawan, Wisatawan
  • Plur
    • ADJ: laki-laki, cuma-cuma, diam-diam
    • ADV: mati-matian, bersama-sama, betul-betul, diam-diam
    • NOUN: orang-orang, p​e​r​t​a​n​y​a​a​n​-​p​e​r​t​a​n​y​a​a​n, hal-hal, kata-kata, tanda-tanda, Anggota-anggota, Dosen-dosen, anjing-anjing, badan-badan, batu-batu
    • PRON: mereka, kita, kami, kalian, anak-anakmu, kamilah, merekapun
    • PROPN: Negara-negara
    • VERB: berlaksa-laksa, orang-orang, berdua-duaan
  • Plur
    • NOUN: orang, negara, anak, bertahun, batas, bagian, batu, bulan, kota, puing
  • Sing
    • ADJ: lain, besar, awal, baru, sama, kecil, utama, tinggi, baik, sendiri
    • ADP: dalam, tentang, atas, selain, asal, saat, bersama, bagi, mana, melawan
    • ADV: dapat, harus, sudah, kembali, terutama, tetap, mulai, kali, tiba, kurang
    • AUX: rata
    • CCONJ: lalu, akibat, mana, baik, melainkan, Stasiun, alias, bersama, saat, sebab
    • DET: salah, sebagian, kebanyakan, mayoritas, orang, seekor, sekelompok, banyak, berikut, buah
    • NOUN: tahun, orang, desa, kota, nama, bagian, bahasa, wilayah, negara, daerah
    • NUM: meter, XII, mm, persen, setengah, 1880an, 1980an, 1990an, REVOLUSI, buta
    • PART: tiada, Berdasar, bersorak, keluar, membelinya, silakan, tercetusnya, terkejutnya
    • PRON: ia, dia, kamu, aku, engkau, dirinya, Perang, beliau, saya, anda
    • PROPN: indonesia, kabupaten, kecamatan, Jawa, provinsi, Amerika, Timur, Barat, jepang, tengah
    • PUNCT: banyak, habis
    • SCONJ: saat, lalu, sebab, akibat, mana, melainkan, sewaktu, akibatnya, Adapun, selain
    • SYM: cm
    • VERB: menjadi, memiliki, ada, terletak, digunakan, berada, menggunakan, dikenal, terjadi, disebut
    • X: anti

Degree and Polarity

Degree and Polarity

  • Pos
    • ADJ: lain, besar, baru, sama, kecil, utama, tinggi, baik, sendiri, dekat
    • ADP: dalam, atas, selain, sampai, luar, baik, sesuai, seluas, sejauh, pasca
    • ADV: tetap, kurang, biasa, baru, sedikit, sama, lalu, rata, relatif, sendiri
    • AUX: rata
    • CCONJ: lalu, baik, Adapun, Layaknya, lain, sama, selain, sewaktu
    • DET: salah, sebagian, seekor, sekelompok, banyak, semacam, sendiri, aneka, baik, sama
    • NOUN: luas, pusat, salah, atas, panjang, luar, sebagian, jarak, seri, bekas
    • NUM: 1880an, 1980an, 1990an, buta, muda
    • PART: tiada
    • PRON: sendiri, adakah, dekat
    • PROPN: Nasional, Raya, baru, Agung, Pusat, Besar, Internasional, Suci, Perdana, United
    • PUNCT: banyak, habis
    • SCONJ: lalu, sewaktu, Adapun, selain, usai, Baru, jadi
    • VERB: ada, berhasil, gagal, selesai, menarik, kalah, lulus, kabur, terbuka, marah
    • X: anti
  • Sup
    • ADJ: terbesar, terakhir, tertinggi, terbaik, terdekat, tertua, terbanyak, terpenting, tersendiri, terakhirnya
    • ADP: teratas, terutama
    • ADV: terutama, ternyata, terlebih, terakhir
    • NOUN: Terputusnya, terbaru, terbarunya, terbiasa, terendahnya, termudanya
    • PROPN: Terbaik, Terakhir, Ternyata, Tertinggi
    • SCONJ: ternyata
    • VERB: terputus, terlepas, ternyata, Terlebih, terbebas, terdiam, terpecah, terpesona, terpusat, tersadar
  • Neg
    • ADJ: non
    • ADV: tidak, tak, bukan
    • NOUN: anti, non, ketidakcukupan, ketidakjelasan, ketidakpastian, nonbuku, nonkriminal
    • PART: tidak, tak, bukan, bukankah, belum, bukanlah, jangan, tanpa, tidakkah, kan
    • PROPN: Tak, t, tidak
  • Neg
    • ADV: tidak, tak, belum, bukan, ketidak, setidaknya, Didn't, Don't

Verbal Features

Verbal Features

  • Act
    • ADJ: berbeda, keluar, bersama, lanjut, beragam, bersamaan, pecah, cetak, erat, hias
    • ADP: tentang, bersama, bagi, melawan, berdasarkan, lewat, antar, menuju, mulai, menjadi
    • ADV: dapat, harus, sudah, kembali, mulai, turut, kira, ingin, bersama, perlu
    • CCONJ: melainkan, bersama
    • DET: berikut, beragam, Bagi
    • NOUN: tanggal, sepak, gelar, hukum, jalan, pukul, milik, jawab, kali, pos
    • NUM: XII, inchi
    • PART: Berdasar, bersorak, keluar, membelinya, silakan
    • PRON: Aku, berdirinya
    • PROPN: Hukum, Tata, Kerja, Undang, Kali, Balai, Kutai, Sepak, Aku, Fei
    • SCONJ: melainkan, berikut
    • VERB: menjadi, memiliki, berada, menggunakan, membuat, bermain, mulai, kembali, berasal, mempunyai
  • Pass
    • ADJ: terkenal, terpisah, terbalik, tercinta, terkemuka, ternama, dibakar, didaerah, dijahit, dipecah
    • ADP: dibawah, diatas, dibidang, dibawahnya, didaerah, didalam, diluar, diposisi, ditahun, ditepi
    • ADV: terpaksa, diduga, Disaat, diolah, dipotong
    • NOUN: disini, Dirilis, didunia, ditempat, teriakan, Terhambatnya, diSurga, diangkat, diare, diatom
    • PART: tercetusnya, terkejutnya
    • PROPN: Diana, Dipertuan, Dian, Terpadu, dit, DIATASI, DiVA, Dibuat, Dibuka, Die
    • SCONJ: Disamping
    • VERB: terletak, digunakan, dikenal, terjadi, disebut, terdapat, terdiri, dilakukan, dirilis, ditemukan

Pronouns, Determiners, Quantifiers

Pronouns, Determiners, Quantifiers

  • Dem
    • ADV: begitu
    • CCONJ: begitu, itu
    • DET: ini, itu, tersebut, para, inilah, itulah, Begitu, beginilah, itupun
    • PRON: itu, itulah, Inilah, ini, Para, begitu, Inikah, inipun
    • SCONJ: begitu, itu
    • VERB: Tersebutlah
  • Ind
    • ADP: Berbagai
    • ADV: banyak
    • DET: sebuah, seorang, berbagai, suatu, beberapa, tertentu, banyak, sejumlah, sepasang, Banyaknya
    • PRON: adanya, seorang, sejumlah, banyak, beberapa
    • VERB: adanya
  • Int
    • ADP: dimana, bagaimana, mana, apakah
    • ADV: apakah, bagaimana, mengapa, dimana, kenapa, bagaimanakah, apa, Kemana, Berapa, Mengapakah
    • CCONJ: Bagaimana
    • DET: bagaimana, apakah, berapa, Bagaimanakah, apapun, kenapa, manakah
    • PRON: apa, siapa, apakah, siapakah, bagaimana, kapan, mana, mengapa, apapun, kapankah
    • SCONJ: dimana, apakah, mana, Bagaimana
    • VERB: apa
  • Int
    • PART: kah, kan
  • Prs
    • PRON: ia, mereka, kita, dia, kamu, engkau, aku, kami, beliau, saya
  • Rel
    • DET: kemudian, sementara, demikian, jadi, maka, sehubungan
    • PRON: yang, saat, bahwa, jadi, berkat, ketika, yg, agar, Bila, Demikian
  • Tot
    • ADV: semua, segalanya
    • DET: semua, setiap, seluruh, segala, tiap, keseluruhan, segenap, semuanya
    • PRON: keseluruhan, semua, semuanya, segala, segenap, keseluruhannya
  • Card
    • ADV: banyak
    • DET: beberapa, banyak, sejumlah, berapa, sepasang, Banyaknya
    • NUM: dua, pertama, kedua, 1, satu, 2, 3, 5, tiga, 4
    • PRON: sejumlah, banyak, beberapa
  • 1
    • PRON: kita, aku, kami, saya, kamilah
    • PROPN: Kutai, Kumari, Kusambut, Kustilah
    • VERB: kukatakan, Kubebaskankah, Kutebuskah, kudengar
  • 2
    • PRON: kamu, engkau, anda, kalian, kau
    • VERB: kaukatakan
  • 3
    • PRON: ia, mereka, dia, beliau, Nya, merekapun
  • Form
    • PRON: beliau, saya, anda
  • Infm
    • PRON: kamu, engkau, aku
  • Sing
    • ADJ: utamanya, pertamanya, lamanya, aslinya, terakhirnya, besarnya, mudanya, sekitarnya, berakhirnya, kecilnya
    • ADP: antaranya, padanya, layaknya, bersamanya, dalamnya, dibawahnya, kepadanya, menurutmu, untukmu, untuknya
    • ADV: awalnya, sayangnya, tepatnya, kalinya, menurutnya, agaknya, antaranya, ibunya, kurangnya, nantinya
    • CCONJ: Layaknya
    • DET: satunya, banyaknya, semuanya, Keduanya
    • NOUN: ayahnya, namanya, penduduknya, anaknya, ibunya, keduanya, kalinya, sebagainya, adiknya, harinya
    • NUM: pertamanya, satunya, keduanya, keenamnya
    • PART: bukannya, membelinya, tercetusnya, terkejutnya, tidaknya
    • PRON: dirinya, semuanya, saatnya, akau, anak-anakmu, berdirinya, isinya, keseluruhannya
    • PROPN: Allahku, Ayahnya, Miku, Tuanku, Allahmu, Bintangmu, CPOKU, Cintaku, Dalihnya, Inggrisnya
    • SCONJ: akibatnya
    • VERB: artinya, masuknya, melakukannya, membuatnya, menjadikannya, terjadinya, berdirinya, ditemukannya, menolongnya, menyebutnya

Other Features

Other Features

  • Clusivity
    • Ex
      • PRON: kami, kamilah
    • In
      • PRON: kita
  • Foreign
    • Yes
      • X: Angeles, Mundo, Nostrum, Píanó, Traum, ZEIT, andino, de, grâce, maiorum
  • Person[psor]
    • 1
      • ADP: kepadaku
      • NOUN: bagiku, hamba-Ku, namaku, wuku, diriku, dosaku, istriku, kangaku, kepada-Ku, kepadaku
      • PROPN: Allahku, Miku, Tuanku, CPOKU, Cintaku, PKU, Tuhanku
      • VERB: diriku, membohongiku, menantangku
    • 2
      • ADJ: barumu
      • ADP: menurutmu, untukmu, kepadamu
      • ADV: Amu, mendorongmu
      • NOUN: bakau, bagimu, istrimu, kepadamu, matamu, namu, Maumu, dirimu, dosamu, hari-harimu
      • PRON: akau, anak-anakmu
      • PROPN: Allahmu, Bintangmu, Kepadamu
      • VERB: Menyayangimu, melayanimu, membuatmu, menikahimu
    • 3
      • ADJ: utamanya, pertamanya, lamanya, aslinya, terakhirnya, besarnya, mudanya, sekitarnya, berakhirnya, kecilnya
      • ADP: antaranya, padanya, layaknya, bersamanya, dalamnya, dibawahnya, kepadanya, untuknya, Sesampainya, bagi-Nya
      • ADV: awalnya, sayangnya, tepatnya, kalinya, menurutnya, agaknya, antaranya, ibunya, kurangnya, nantinya
      • CCONJ: Layaknya
      • DET: satunya, banyaknya, semuanya, Keduanya
      • NOUN: ayahnya, namanya, penduduknya, anaknya, ibunya, keduanya, kalinya, sebagainya, adiknya, harinya
      • NUM: pertamanya, satunya, keduanya, keenamnya
      • PART: bukannya, membelinya, tercetusnya, terkejutnya, tidaknya
      • PRON: dirinya, semuanya, saatnya, berdirinya, isinya, keseluruhannya
      • PROPN: Ayahnya, Dalihnya, Inggrisnya, Istrinya, Jadinya, Kabarnya, Matinya, Oktobernya, Penyelenggaranya, Rasanya
      • SCONJ: akibatnya
      • VERB: artinya, masuknya, melakukannya, membuatnya, menjadikannya, terjadinya, berdirinya, ditemukannya, menolongnya, menyebutnya

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 2 lemmas as copulas (cop). Examples: adalah, ialah.

Syntax

Auxiliary Verbs and Copula

  • This corpus uses 1 lemmas as copulas (cop). Examples: _.
  • This corpus uses 3 lemmas as auxiliaries (aux). Examples: dapat, harus, terpaksa.
  • This corpus uses 1 lemmas as auxiliaries (aux). Examples: _.

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (1594)
    • VERB--NOUN-ADP(dalam) (2)
    • VERB--NOUN-ADP(di)-ADP(antara) (1)
    • VERB--NOUN-ADP(saat) (1)
    • VERB--NOUN-ADP(seperti) (1)
    • VERB--NOUN-ADP(untuk) (1)
    • VERB--PRON (2067)

Core Arguments, Oblique Arguments and Adjuncts

Here we consider only relations between verbs (parent) and nouns or pronouns (child).
  • nsubj
    • VERB--NOUN (284)
    • VERB--PRON (161)
  • obj
    • VERB--NOUN (4369)
    • VERB--NOUN-ADP(atas) (2)
    • VERB--NOUN-ADP(bahkan) (1)
    • VERB--NOUN-ADP(dalam) (1)
    • VERB--NOUN-ADP(dari) (5)
    • VERB--NOUN-ADP(hingga) (2)
    • VERB--NOUN-ADP(ke) (1)
    • VERB--NOUN-ADP(ke)-ADP(dalam) (1)
    • VERB--NOUN-ADP(kepada) (1)
    • VERB--NOUN-ADP(pada) (2)
    • VERB--NOUN-ADP(sampai) (1)
    • VERB--NOUN-ADP(sebesar) (1)
    • VERB--NOUN-ADP(secara) (1)
    • VERB--NOUN-ADP(selama) (1)
    • VERB--NOUN-ADP(seluas) (1)
    • VERB--NOUN-ADP(seperti) (4)
    • VERB--NOUN-ADP(teratas) (1)
    • VERB--NOUN-ADP(terhadap) (1)
    • VERB--NOUN-ADP(untuk) (3)
    • VERB--NOUN-ADP(yaitu) (1)
    • VERB--PRON (327)
  • obj
    • VERB--NOUN (315)
    • VERB--NOUN-ADP(_) (3)
    • VERB--PRON (36)
  • iobj
    • VERB--NOUN (7)
    • VERB--PRON (3)
  • iobj
    • VERB--PRON (5)

Relations Overview

Relations Overview