UD_Indonesian-GSD
|
UD_Indonesian-PUD
|
Tokenization and Word Segmentation
|
Tokenization and Word Segmentation
|
- This corpus contains 5593 sentences and 121923 tokens.
|
- This corpus contains 1000 sentences and 19900 tokens.
|
- This corpus contains 16358 tokens (13%) that are not followed by a space.
|
- This corpus contains 5067 tokens (25%) that are not followed by a space.
|
- This corpus does not contain words with spaces.
|
- This corpus does not contain words with spaces.
|
- This corpus contains 124 types of words that contain both letters and punctuation. Examples: &, km², orang-orang, benar-benar,  , laki-laki, pertanyaan-pertanyaan, Moody's, Rubik's, berlaksa-laksa, diam-diam, hal-hal, hamba-Ku, kata-kata, tanda-tanda, 14 , 22 , 36 , 40 , 764 , Anggota-anggota, Aphrodite's, Assisted_GPS, Bird's, Cinta-Dante-Cahaya, Dosen-dosen, GL_ARB_robustness, GL_EXT_robustness, He's, Heaven's, ID&T, It's, Ja's, Jane's, Levy's, Lloyd's, M&D, Nama-Nya, Negara-negara, P&G, PEI-AISAH, Pepper's, Punk's, Rasul-Nya, Robert's, She's, TV's, Tiba-tiba, Valve's, Vol.
|
- This corpus contains 33 types of words that contain both letters and punctuation. Examples: -an, ke-, A.S., Nn., No., St., Tn., B.C., Ms., 'Ya, -agen, A.S, B-29, Didn't, Don't, Hitchhiker's, I., Jr., M.A., Mr., Ny., Pasca-, U.S., Under-Secretary, Z., Zettel’s, al-Jadaan, anti-, men-, pro-, sampai-sampai, wi-fi, “luar
|
|
|
Morphology
Tags
- This corpus uses 16 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SCONJ, SYM, VERB, X
- This corpus does not use the following tags: INTJ
|
Morphology
Tags
- This corpus uses 15 UPOS tags out of 17 possible: ADJ, ADP, ADV, AUX, CCONJ, DET, NOUN, NUM, PART, PRON, PROPN, PUNCT, SYM, VERB, X
- This corpus does not use the following tags: SCONJ, INTJ
|
- This corpus contains 36 word types tagged as particles (PART): Berdasar, Hei, Iye, Jadi, Loh, Tuh, belum, bersorak, bukan, bukankah, bukanlah, bukannya, ga, hai, jangan, kan, keluar, kok, koq, lah, membelinya, non, nya, pun, silakan, tak, tanpa, tercetusnya, terkejutnya, tiada, tidak, tidakkah, tidaklah, tidaknya, ya, yang
|
- This corpus contains 9 word types tagged as particles (PART): kah, kan, lah, me, nya, pe, per, pun, se
|
- This corpus contains 75 lemmas tagged as pronouns (PRON): a, abang, ada, adanya, agar, aku, anak, anda, apa, bagaimana, bagaimanasebuah, bahwa, banyak, beberapa, begitu, beliau, berapa, berdiri, berkat, beta, bila, bilamana, dekat, demikian, dia, dimana, diri, engkau, gimana, i, ia, ini, isi, it, itu, jadi, jang, kalian, kami, kamu, kapan, kau, kenapa, keseluruhan, kesemuanya, ketika, kita, kita.dan, ku, mahabharata, mana, manakala, media, mengapa, mereka, nya, para, perang, saat, saya, sebelum, sedangkan, segala, segenap, sejumlah, semua, sendiri, seorang, siapa, sini, uskup, vertebrata, yang, yg, your
|
- This corpus contains 1 lemmas tagged as pronouns (PRON): _
|
- This corpus contains 110 lemmas tagged as determiners (DET): 2, a, al, an, aneka, apa, bagaimana, bagi, baik, banyak, beberapa, begini, begitu, berapa, berbagai, berberapa, berdua, berikut, berragam, buah, buruh, demikian, dibeberapa, dr, gepenglah, how, in, ini, itu, itua, jadi, ke, kebanyakan, kedua, keempat, kelima, kemudian, kenapa, keseluruhan, ketiga, khususnya, la, lain, lainnya, macam, maka, mana, masing, mayoritas, nya, oh, orang, para, penbantaian, per, pituruh, pula, pun, ratusan, ribuan, salah, sama, sang, satu, satusatunya, sauatu, se, seantero, sebagaian, sebagian, sebua, sebuah, sedikit, sedikitnya, seekor, segala, segenap, sehubungan, sejumlah, sekali, sekelompok, sekeping, sekitar, sekumpulan, seluruh, semacam, semangkuk, sementara, semua, sendiri, seorang, sepasang, sepucuk, serangkaian, sesuatu, setiap, si, stu, suatu, tangguh, tersebut, tertentu, tesebut, tetap, the, tiap, tsb, tujuh, uap, yaitu
|
- This corpus contains 1 lemmas tagged as determiners (DET): _
|
- Out of the above, 22 lemmas occurred sometimes as PRON and sometimes as DET: a, apa, bagaimana, banyak, beberapa, begitu, berapa, demikian, ini, itu, jadi, kenapa, keseluruhan, mana, nya, para, segala, segenap, sejumlah, semua, sendiri, seorang
|
- Out of the above, 1 lemmas occurred sometimes as PRON and sometimes as DET: _
|
- This corpus contains 3 lemmas tagged as auxiliaries (AUX): adalah, ialah, rata
|
- This corpus contains 1 lemmas tagged as auxiliaries (AUX): _
|
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: adalah
|
- Out of the above, 1 lemmas occurred sometimes as AUX and sometimes as VERB: _
|
- This corpus does not use the VerbForm feature.
|
- This corpus does not use the VerbForm feature.
|
Nominal Features
|
Nominal Features
|
|
|
- Fem
- NOUN: seniwati
- PROPN: Indrawati, Selawati
|
|
- Masc
- ADJ: dermawan
- NOUN: ilmuwan, bangsawan, fisikawan, karyawan, karyawannya, rohaniwan, wisatawan, bangsawannya
- PROPN: Taiwan, Belawan, Wisatawan
|
|
|
|
|
|
- Plur
- ADJ: laki-laki, cuma-cuma, diam-diam
- ADV: mati-matian, bersama-sama, betul-betul, diam-diam
- NOUN: orang-orang, pertanyaan-pertanyaan, hal-hal, kata-kata, tanda-tanda, Anggota-anggota, Dosen-dosen, anjing-anjing, badan-badan, batu-batu
- PRON: mereka, kita, kami, kalian, anak-anakmu, kamilah, merekapun
- PROPN: Negara-negara
- VERB: berlaksa-laksa, orang-orang, berdua-duaan
|
- Plur
- NOUN: orang, negara, anak, bertahun, batas, bagian, batu, bulan, kota, puing
|
- Sing
- ADJ: lain, besar, awal, baru, sama, kecil, utama, tinggi, baik, sendiri
- ADP: dalam, tentang, atas, selain, asal, saat, bersama, bagi, mana, melawan
- ADV: dapat, harus, sudah, kembali, terutama, tetap, mulai, kali, tiba, kurang
- AUX: rata
- CCONJ: lalu, akibat, mana, baik, melainkan, Stasiun, alias, bersama, saat, sebab
- DET: salah, sebagian, kebanyakan, mayoritas, orang, seekor, sekelompok, banyak, berikut, buah
- NOUN: tahun, orang, desa, kota, nama, bagian, bahasa, wilayah, negara, daerah
- NUM: meter, XII, mm, persen, setengah, 1880an, 1980an, 1990an, REVOLUSI, buta
- PART: tiada, Berdasar, bersorak, keluar, membelinya, silakan, tercetusnya, terkejutnya
- PRON: ia, dia, kamu, aku, engkau, dirinya, Perang, beliau, saya, anda
- PROPN: indonesia, kabupaten, kecamatan, Jawa, provinsi, Amerika, Timur, Barat, jepang, tengah
- PUNCT: banyak, habis
- SCONJ: saat, lalu, sebab, akibat, mana, melainkan, sewaktu, akibatnya, Adapun, selain
- SYM: cm
- VERB: menjadi, memiliki, ada, terletak, digunakan, berada, menggunakan, dikenal, terjadi, disebut
- X: anti
|
|
|
|
|
|
|
|
Degree and Polarity
|
Degree and Polarity
|
|
|
- Pos
- ADJ: lain, besar, baru, sama, kecil, utama, tinggi, baik, sendiri, dekat
- ADP: dalam, atas, selain, sampai, luar, baik, sesuai, seluas, sejauh, pasca
- ADV: tetap, kurang, biasa, baru, sedikit, sama, lalu, rata, relatif, sendiri
- AUX: rata
- CCONJ: lalu, baik, Adapun, Layaknya, lain, sama, selain, sewaktu
- DET: salah, sebagian, seekor, sekelompok, banyak, semacam, sendiri, aneka, baik, sama
- NOUN: luas, pusat, salah, atas, panjang, luar, sebagian, jarak, seri, bekas
- NUM: 1880an, 1980an, 1990an, buta, muda
- PART: tiada
- PRON: sendiri, adakah, dekat
- PROPN: Nasional, Raya, baru, Agung, Pusat, Besar, Internasional, Suci, Perdana, United
- PUNCT: banyak, habis
- SCONJ: lalu, sewaktu, Adapun, selain, usai, Baru, jadi
- VERB: ada, berhasil, gagal, selesai, menarik, kalah, lulus, kabur, terbuka, marah
- X: anti
|
|
- Sup
- ADJ: terbesar, terakhir, tertinggi, terbaik, terdekat, tertua, terbanyak, terpenting, tersendiri, terakhirnya
- ADP: teratas, terutama
- ADV: terutama, ternyata, terlebih, terakhir
- NOUN: Terputusnya, terbaru, terbarunya, terbiasa, terendahnya, termudanya
- PROPN: Terbaik, Terakhir, Ternyata, Tertinggi
- SCONJ: ternyata
- VERB: terputus, terlepas, ternyata, Terlebih, terbebas, terdiam, terpecah, terpesona, terpusat, tersadar
|
|
|
|
- Neg
- ADJ: non
- ADV: tidak, tak, bukan
- NOUN: anti, non, ketidakcukupan, ketidakjelasan, ketidakpastian, nonbuku, nonkriminal
- PART: tidak, tak, bukan, bukankah, belum, bukanlah, jangan, tanpa, tidakkah, kan
- PROPN: Tak, t, tidak
|
- Neg
- ADV: tidak, tak, belum, bukan, ketidak, setidaknya, Didn't, Don't
|
|
|
Verbal Features
|
Verbal Features
|
|
|
|
|
|
|
|
|
- Act
- ADJ: berbeda, keluar, bersama, lanjut, beragam, bersamaan, pecah, cetak, erat, hias
- ADP: tentang, bersama, bagi, melawan, berdasarkan, lewat, antar, menuju, mulai, menjadi
- ADV: dapat, harus, sudah, kembali, mulai, turut, kira, ingin, bersama, perlu
- CCONJ: melainkan, bersama
- DET: berikut, beragam, Bagi
- NOUN: tanggal, sepak, gelar, hukum, jalan, pukul, milik, jawab, kali, pos
- NUM: XII, inchi
- PART: Berdasar, bersorak, keluar, membelinya, silakan
- PRON: Aku, berdirinya
- PROPN: Hukum, Tata, Kerja, Undang, Kali, Balai, Kutai, Sepak, Aku, Fei
- SCONJ: melainkan, berikut
- VERB: menjadi, memiliki, berada, menggunakan, membuat, bermain, mulai, kembali, berasal, mempunyai
|
|
- Pass
- ADJ: terkenal, terpisah, terbalik, tercinta, terkemuka, ternama, dibakar, didaerah, dijahit, dipecah
- ADP: dibawah, diatas, dibidang, dibawahnya, didaerah, didalam, diluar, diposisi, ditahun, ditepi
- ADV: terpaksa, diduga, Disaat, diolah, dipotong
- NOUN: disini, Dirilis, didunia, ditempat, teriakan, Terhambatnya, diSurga, diangkat, diare, diatom
- PART: tercetusnya, terkejutnya
- PROPN: Diana, Dipertuan, Dian, Terpadu, dit, DIATASI, DiVA, Dibuat, Dibuka, Die
- SCONJ: Disamping
- VERB: terletak, digunakan, dikenal, terjadi, disebut, terdapat, terdiri, dilakukan, dirilis, ditemukan
|
|
|
|
Pronouns, Determiners, Quantifiers
|
Pronouns, Determiners, Quantifiers
|
|
|
- Dem
- ADV: begitu
- CCONJ: begitu, itu
- DET: ini, itu, tersebut, para, inilah, itulah, Begitu, beginilah, itupun
- PRON: itu, itulah, Inilah, ini, Para, begitu, Inikah, inipun
- SCONJ: begitu, itu
- VERB: Tersebutlah
|
|
- Ind
- ADP: Berbagai
- ADV: banyak
- DET: sebuah, seorang, berbagai, suatu, beberapa, tertentu, banyak, sejumlah, sepasang, Banyaknya
- PRON: adanya, seorang, sejumlah, banyak, beberapa
- VERB: adanya
|
|
- Int
- ADP: dimana, bagaimana, mana, apakah
- ADV: apakah, bagaimana, mengapa, dimana, kenapa, bagaimanakah, apa, Kemana, Berapa, Mengapakah
- CCONJ: Bagaimana
- DET: bagaimana, apakah, berapa, Bagaimanakah, apapun, kenapa, manakah
- PRON: apa, siapa, apakah, siapakah, bagaimana, kapan, mana, mengapa, apapun, kapankah
- SCONJ: dimana, apakah, mana, Bagaimana
- VERB: apa
|
|
- Prs
- PRON: ia, mereka, kita, dia, kamu, engkau, aku, kami, beliau, saya
|
|
- Rel
- DET: kemudian, sementara, demikian, jadi, maka, sehubungan
- PRON: yang, saat, bahwa, jadi, berkat, ketika, yg, agar, Bila, Demikian
|
|
- Tot
- ADV: semua, segalanya
- DET: semua, setiap, seluruh, segala, tiap, keseluruhan, segenap, semuanya
- PRON: keseluruhan, semua, semuanya, segala, segenap, keseluruhannya
|
|
|
|
- Card
- ADV: banyak
- DET: beberapa, banyak, sejumlah, berapa, sepasang, Banyaknya
- NUM: dua, pertama, kedua, 1, satu, 2, 3, 5, tiga, 4
- PRON: sejumlah, banyak, beberapa
|
|
|
|
|
|
|
|
- 1
- PRON: kita, aku, kami, saya, kamilah
- PROPN: Kutai, Kumari, Kusambut, Kustilah
- VERB: kukatakan, Kubebaskankah, Kutebuskah, kudengar
|
|
- 2
- PRON: kamu, engkau, anda, kalian, kau
- VERB: kaukatakan
|
|
- 3
- PRON: ia, mereka, dia, beliau, Nya, merekapun
|
|
|
|
|
|
|
|
|
|
|
|
- Sing
- ADJ: utamanya, pertamanya, lamanya, aslinya, terakhirnya, besarnya, mudanya, sekitarnya, berakhirnya, kecilnya
- ADP: antaranya, padanya, layaknya, bersamanya, dalamnya, dibawahnya, kepadanya, menurutmu, untukmu, untuknya
- ADV: awalnya, sayangnya, tepatnya, kalinya, menurutnya, agaknya, antaranya, ibunya, kurangnya, nantinya
- CCONJ: Layaknya
- DET: satunya, banyaknya, semuanya, Keduanya
- NOUN: ayahnya, namanya, penduduknya, anaknya, ibunya, keduanya, kalinya, sebagainya, adiknya, harinya
- NUM: pertamanya, satunya, keduanya, keenamnya
- PART: bukannya, membelinya, tercetusnya, terkejutnya, tidaknya
- PRON: dirinya, semuanya, saatnya, akau, anak-anakmu, berdirinya, isinya, keseluruhannya
- PROPN: Allahku, Ayahnya, Miku, Tuanku, Allahmu, Bintangmu, CPOKU, Cintaku, Dalihnya, Inggrisnya
- SCONJ: akibatnya
- VERB: artinya, masuknya, melakukannya, membuatnya, menjadikannya, terjadinya, berdirinya, ditemukannya, menolongnya, menyebutnya
|
|
Other Features
|
Other Features
|
|
|
|
- Foreign
- Yes
- X: Angeles, Mundo, Nostrum, Píanó, Traum, ZEIT, andino, de, grâce, maiorum
|
- Person[psor]
- 1
- ADP: kepadaku
- NOUN: bagiku, hamba-Ku, namaku, wuku, diriku, dosaku, istriku, kangaku, kepada-Ku, kepadaku
- PROPN: Allahku, Miku, Tuanku, CPOKU, Cintaku, PKU, Tuhanku
- VERB: diriku, membohongiku, menantangku
- 2
- ADJ: barumu
- ADP: menurutmu, untukmu, kepadamu
- ADV: Amu, mendorongmu
- NOUN: bakau, bagimu, istrimu, kepadamu, matamu, namu, Maumu, dirimu, dosamu, hari-harimu
- PRON: akau, anak-anakmu
- PROPN: Allahmu, Bintangmu, Kepadamu
- VERB: Menyayangimu, melayanimu, membuatmu, menikahimu
- 3
- ADJ: utamanya, pertamanya, lamanya, aslinya, terakhirnya, besarnya, mudanya, sekitarnya, berakhirnya, kecilnya
- ADP: antaranya, padanya, layaknya, bersamanya, dalamnya, dibawahnya, kepadanya, untuknya, Sesampainya, bagi-Nya
- ADV: awalnya, sayangnya, tepatnya, kalinya, menurutnya, agaknya, antaranya, ibunya, kurangnya, nantinya
- CCONJ: Layaknya
- DET: satunya, banyaknya, semuanya, Keduanya
- NOUN: ayahnya, namanya, penduduknya, anaknya, ibunya, keduanya, kalinya, sebagainya, adiknya, harinya
- NUM: pertamanya, satunya, keduanya, keenamnya
- PART: bukannya, membelinya, tercetusnya, terkejutnya, tidaknya
- PRON: dirinya, semuanya, saatnya, berdirinya, isinya, keseluruhannya
- PROPN: Ayahnya, Dalihnya, Inggrisnya, Istrinya, Jadinya, Kabarnya, Matinya, Oktobernya, Penyelenggaranya, Rasanya
- SCONJ: akibatnya
- VERB: artinya, masuknya, melakukannya, membuatnya, menjadikannya, terjadinya, berdirinya, ditemukannya, menolongnya, menyebutnya
|
|
Syntax
Auxiliary Verbs and Copula
- This corpus uses 2 lemmas as copulas (cop). Examples: adalah, ialah.
|
Syntax
Auxiliary Verbs and Copula
- This corpus uses 1 lemmas as copulas (cop). Examples: _.
|
- This corpus uses 3 lemmas as auxiliaries (aux). Examples: dapat, harus, terpaksa.
|
- This corpus uses 1 lemmas as auxiliaries (aux). Examples: _.
|
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (1594)
- VERB--NOUN-ADP(dalam) (2)
- VERB--NOUN-ADP(di)-ADP(antara) (1)
- VERB--NOUN-ADP(saat) (1)
- VERB--NOUN-ADP(seperti) (1)
- VERB--NOUN-ADP(untuk) (1)
- VERB--PRON (2067)
|
Core Arguments, Oblique Arguments and Adjuncts
Here we consider only relations between verbs (parent) and nouns or pronouns (child).
- nsubj
- VERB--NOUN (284)
- VERB--PRON (161)
|
- obj
- VERB--NOUN (4369)
- VERB--NOUN-ADP(atas) (2)
- VERB--NOUN-ADP(bahkan) (1)
- VERB--NOUN-ADP(dalam) (1)
- VERB--NOUN-ADP(dari) (5)
- VERB--NOUN-ADP(hingga) (2)
- VERB--NOUN-ADP(ke) (1)
- VERB--NOUN-ADP(ke)-ADP(dalam) (1)
- VERB--NOUN-ADP(kepada) (1)
- VERB--NOUN-ADP(pada) (2)
- VERB--NOUN-ADP(sampai) (1)
- VERB--NOUN-ADP(sebesar) (1)
- VERB--NOUN-ADP(secara) (1)
- VERB--NOUN-ADP(selama) (1)
- VERB--NOUN-ADP(seluas) (1)
- VERB--NOUN-ADP(seperti) (4)
- VERB--NOUN-ADP(teratas) (1)
- VERB--NOUN-ADP(terhadap) (1)
- VERB--NOUN-ADP(untuk) (3)
- VERB--NOUN-ADP(yaitu) (1)
- VERB--PRON (327)
|
- obj
- VERB--NOUN (315)
- VERB--NOUN-ADP(_) (3)
- VERB--PRON (36)
|
- iobj
- VERB--NOUN (7)
- VERB--PRON (3)
|
|
|
|
|
|
|
|
Relations Overview
- This corpus uses 3 relation subtypes: compound:plur, csubj:pass, nsubj:pass
- The following 9 relation types are not used in this corpus at all: vocative, expl, dislocated, discourse, clf, list, orphan, goeswith, reparandum
|
Relations Overview
- This corpus uses 13 relation subtypes: acl:relcl, cc:preconj, compound:a, compound:n, compound:plur, compound:v, csubj:pass, dep:prt, flat:name, nmod:poss, nsubj:pass, obl:poss, obl:tmod
- The following 1 main types are not used alone, they are always subtyped: acl
- The following 4 relation types are not used in this corpus at all: expl, list, orphan, reparandum
|