Results (
Indonesian) 2:
[Copy]Copied!
A. Dokumen Frequiency (DF)
Dokumen frekuensi adalah jumlah dokumen di mana
istilah terjadi dalam kumpulan data. Ini adalah kriteria yang paling sederhana untuk jangka
seleksi dan mudah skala untuk dataset besar dengan linear
kompleksitas perhitungan. Sebuah asumsi dasar dari metode ini adalah
bahwa istilah muncul dalam dokumen minoritas yang tidak penting atau
tidak akan mempengaruhi efisiensi clustering. Ini adalah sederhana namun
metode seleksi fitur yang efektif untuk kategorisasi teks [9].
B. Jangka contributtion (TC)
Karena metode sederhana seperti DF mengasumsikan bahwa setiap jangka
adalah sama pentingnya dalam dokumen yang berbeda, itu mudah
bias oleh istilah-istilah umum yang memiliki dokumen tinggi
frekuensi tetapi distribusi seragam atas kelas yang berbeda. TC
diusulkan untuk menangani masalah ini [10].
Kami akan memperkenalkan TF.IDF (Term Frequency Inverse
Document Frequency) pertama [11]. TF.IDF sintetis
menganggap frekuensi istilah dalam dokumen dan
frekuensi dokumen dari istilah. Ini percaya bahwa jika istilah
muncul dalam terlalu banyak dokumen, itu terlalu umum dan tidak
penting untuk clustering. Jadi Inverse Document Frequency adalah
dipertimbangkan. Artinya, jika frekuensi istilah dalam dokumen adalah
tinggi dan tidak muncul di banyak dokumen, istilah ini
penting. Bentuk umum dari TF.IDF adalah
Being translated, please wait..
