Results (
Indonesian) 1:
[Copy]Copied!
A. dokumen Frequiency (DF)Dokumen frekuensi adalah jumlah dokumen yangistilah terjadi dalam dataset. Ini adalah kriteria yang paling sederhana untuk jangkaseleksi dan mudah timbangan untuk dataset besar dengan linearkompleksitas komputasi. Asumsi dasar dari metode ini adalahbahwa istilah muncul dalam minoritas dokumen tidak penting atautidak akan mempengaruhi efisiensi clustering. Ini adalah sederhana namunFitur efektif metode seleksi untuk teks kategorisasi [9].B. jangka Contributtion (TC)Karena metode sederhana seperti DF mengasumsikan bahwa setiap istilahadalah sama pentingnya dalam dokumen yang berbeda, itu adalah mudahbias oleh istilah tersebut umum yang memiliki tinggi dokumenfrekuensi tapi distribusi seragam atas kelas yang berbeda. TCdiusulkan untuk menangani masalah ini [10].Kami akan memperkenalkan TF. IDF (istilah frekuensi inversDokumen frekuensi) pertama [11]. TF. IDF sintetikmempertimbangkan frekuensi istilah dalam dokumen dandokumen frekuensi istilah. Percaya bahwa jika istilahmuncul dalam dokumen-dokumen yang terlalu banyak, terlalu umum dan tidakpenting untuk pengelompokan. Jadi invers dokumen frekuensidianggap. Yaitu jika frekuensi istilah dalam dokumentinggi dan tidak muncul dalam banyak dokumen, istilahpenting. Bentuk umum TF. IDF adalahHasil teks pengelompokan sangat tergantung padadokumen kesamaan. Jadi kontribusi dari istilah yang dapatdilihat sebagai kontribusinya terhadap dokumen-dokumen yang kesamaan. Thesimilarity between documents Di and D is computed by dotproduct:
Being translated, please wait..