Corpus adalah kumpulan teks yang sangat besar, digunakan analisis linguistik, biasanya disimpan dalam database elektronik sehingga sekumpulan teks yang sangat besar dan banyak tersebut dapat diakses dengan mudah dari komputer. Teks Corpus biasanya terdiri dari ratusan ribu bahkan jutaan kata-kata.
Bentuk jamak dari Corpus adalah Corpora, beberapa corpora populer adalah International Corpus of English (ICE), the British National Corpus (BNC), COBUILD/Birmingham Corpus, IBM/Lancaster Spoken English Corpus dan IBM/Lancaster Spoken English Corpus.
Corpus bisa terdiri dari bahasa tulisan, bahasa lisan atau keduanya, Analisis Corpus memberikan informasi leksikal, informasi morfosintaktis, informasi semantik dan informasi pragmatis.
Kaitannya Corpus atau dengan Natural Language Processing (NLP), yaitu Corpus adalah teks berukuran besar yang biasanya digunakan untuk data training dalam bidang NLP.
Dari penjelasan diatas, mudah-mudahan bisa jadi acuan atau pencerahan terhadap istilah Corpus atau Corpora. :)
Post a Comment