Results (
Indonesian) 1:
[Copy]Copied!
A. dokumen Frequiency (DF)Dokumen frekuensi adalah jumlah dokumen yangistilah terjadi dalam dataset. Ini adalah kriteria yang paling sederhana untuk jangkaseleksi dan mudah timbangan untuk dataset besar dengan linearkompleksitas komputasi. Asumsi dasar dari metode ini adalahbahwa istilah muncul dalam minoritas dokumen tidak penting atautidak akan mempengaruhi efisiensi clustering. Ini adalah sederhana namunFitur efektif metode seleksi untuk teks kategorisasi [9].B. jangka Contributtion (TC)Karena metode sederhana seperti DF mengasumsikan bahwa setiap istilahadalah sama pentingnya dalam dokumen yang berbeda, itu adalah mudahbias oleh istilah tersebut umum yang memiliki tinggi dokumenfrekuensi tapi distribusi seragam atas kelas yang berbeda. TCdiusulkan untuk menangani masalah ini [10].Kami akan memperkenalkan TF. IDF (istilah frekuensi inversDokumen frekuensi) pertama [11]. TF. IDF sintetikmempertimbangkan frekuensi istilah dalam dokumen dandokumen frekuensi istilah. Percaya bahwa jika istilahmuncul dalam dokumen-dokumen yang terlalu banyak, terlalu umum dan tidakpenting untuk pengelompokan. Jadi invers dokumen frekuensidianggap. Yaitu jika frekuensi istilah dalam dokumentinggi dan tidak muncul dalam banyak dokumen, istilahpenting. Bentuk umum TF. IDF adalahHasil teks pengelompokan sangat tergantung padadokumen kesamaan. Jadi kontribusi dari istilah yang dapatdilihat sebagai kontribusinya terhadap dokumen-dokumen yang kesamaan. Thekesamaan antara dokumen Di dan D dihitung dengan dotProduk:Istilah varians kualitas metode diperkenalkan oleh lnderjitDhillon, Jacob Kogan dan Charles Nicholas [12]. Ini mengikutiide-ide Salton dan McGill [13]. Kualitas t istilahdiukur sebagai berikut:Dimana n adalah jumlah dokumen di mana t terjadi padasetidaknya sekali, dan fij > = I, j = 1,..., n.Kami memperkenalkan metode baru yang disebut istilah varians untukmengevaluasi kualitas persyaratan. Itu adalah untuk menghitung varianssetiap periode dalam semua dataset. Metode seperti DF berasumsi bahwa masing-masingistilah sama penting dalam dokumen yang berbeda, itu adalah mudahbias oleh istilah tersebut umum yang memiliki tinggi dokumenfrekuensi tapi distribusi seragam atas kelas yang berbeda. TVmengikuti gagasan DF yang berdamai dengan rendah dokumenfrekuensi ini tidak penting dan dapat memecahkan masalah di atas disaat yang sama. Istilah yang muncul dalam dokumen-dokumen yang sangat sedikit atau memilikidistribusi seragam atas dokumen akan memiliki nilai TV yang rendah.Kualitas istilah diukur sebagai berikut:
Being translated, please wait..
