Results (
Indonesian) 2:
[Copy]Copied!
A. Dokumen Frequiency (DF)
Dokumen frekuensi adalah jumlah dokumen di mana
istilah terjadi dalam kumpulan data. Ini adalah kriteria yang paling sederhana untuk jangka
seleksi dan mudah skala untuk dataset besar dengan linear
kompleksitas perhitungan. Sebuah asumsi dasar dari metode ini adalah
bahwa istilah muncul dalam dokumen minoritas yang tidak penting atau
tidak akan mempengaruhi efisiensi clustering. Ini adalah sederhana namun
metode seleksi fitur yang efektif untuk kategorisasi teks [9].
B. Jangka contributtion (TC)
Karena metode sederhana seperti DF mengasumsikan bahwa setiap jangka
adalah sama pentingnya dalam dokumen yang berbeda, itu mudah
bias oleh istilah-istilah umum yang memiliki dokumen tinggi
frekuensi tetapi distribusi seragam atas kelas yang berbeda. TC
diusulkan untuk menangani masalah ini [10].
Kami akan memperkenalkan TF.IDF (Term Frequency Inverse
Document Frequency) pertama [11]. TF.IDF sintetis
menganggap frekuensi istilah dalam dokumen dan
frekuensi dokumen dari istilah. Ini percaya bahwa jika istilah
muncul dalam terlalu banyak dokumen, itu terlalu umum dan tidak
penting untuk clustering. Jadi Inverse Document Frequency adalah
dipertimbangkan. Artinya, jika frekuensi istilah dalam dokumen adalah
tinggi dan tidak muncul di banyak dokumen, istilah ini
penting. Bentuk umum dari TF.IDF adalah
Hasil pengelompokan teks sangat tergantung pada
kesamaan dokumen. Jadi kontribusi istilah dapat
dilihat sebagai kontribusinya terhadap kesamaan dokumen '. The
kesamaan antara dokumen Di dan D dihitung dengan dot
produk:
Term metode kualitas varians diperkenalkan oleh lnderjit
Dhillon, Jacob Kogan dan Charles Nicholas [12]. Ini mengikuti
ide-ide Salton dan McGill [13]. Kualitas t jangka
diukur sebagai berikut:
Being translated, please wait..
