Results (
Indonesian) 2:
[Copy]Copied!
5. Hasil Eksperimental 
Kami menerapkan metode kami pada artikel berita Cina diposting setiap hari di Web dengan CNA (Central News Agency, Taiwan). Dua cor¬pora dibangun dalam percobaan kami. Corpus pertama (COR¬PUS-1) berisi 100 artikel berita diposting pada bulan Agustus 1-3, 1996. korpus kedua (CORPUS-2) mengandung 3268 halaman Web (atau docu¬ments bergantian) yang dikirim selama 1-9 Oktober 1996 . CORPUS-1 agak kecil dan digunakan untuk tujuan penjelasan saja. Proses ekstraksi kata diaplikasikan corpora untuk mengekstrak kata Cina. Ada 1.475 dan 10.937 kata telah diekstraksi dari COR¬PUS-1 dan CORPUS-2, masing-masing. Untuk mengurangi dimensi dari vektor fitur kami dibuang kata-kata yang hanya terjadi sekali dalam halaman. Kami juga dibuang kata-kata muncul dalam stoplist manu¬ally dibangun. Akhirnya, kita dibuang semua kata selain yang dari kata benda. Proses ini mengurangi jumlah kata-kata untuk 414 dan 1567 untuk-CORPUS 1 dan CORPUS-2, masing-masing. Tingkat reduc¬tion dari 72% dan 86% yang dicapai selama dua corpora, masing-masing.
Being translated, please wait..
