Results (
Indonesian) 2:
[Copy]Copied!
B. Evaluasi ofCluster Validitas kriteria
Ketika kami berbicara dalam Bagian III, ada banyak validitycriterions cluster dapat digunakan untuk mengevaluasi kinerja
algoritma clustering. Tapi kinerja validitas klaster
kriteria sendiri berbeda. Pada bagian ini, pertama-tama kita akan
mengevaluasi kriteria validitas ini dengan menerapkan fitur tunggal
metode seleksi DF pada dataset yang berbeda di mana
kinerja sudah mencapai tampilan yang kompatibel dalam
bidang penelitian.
DF adalah metode seleksi fitur sederhana namun efektif. Ketika
menerapkan DF pada dataset teks, jika minoritas istilah dihapus,
kinerja pengelompokan akan ditingkatkan atau tidak ada kerugian. Ketika
lebih istilah dihapus, kinerja pengelompokan akan turun
dengan cepat.
Nilai-nilai kriteria validitas yang berbeda ketika menerapkan DF
pada dataset yang berbeda menunjukkan pada Gambar. 1.
Hasil AA, RS, FM adalah masing-masing berkisar dari
,5714 ke ,7201, 0,7370-0,8928, 0,1422 ke dari
,5157. Seperti dapat dilihat pada Gambar. 1, empat kurva metode RS
di berbagai empat dataset sekitar mengikuti aturan yang kami
sebutkan di atas. Tapi kurva sangat lembut, sehingga tren
yang tidak berbeda. Empat kurva ofAA semua mengikuti aturan dengan baik
kecuali lekukan TR45. Kurva FM pada dataset FBlS dan
REI mengikuti aturan DF sangat baik, sementara kurva dari TR45
dan TR4 1 gelombang acak.
Jadi, untuk hasil percobaan pertama kami, AA adalah yang terbaik
kriteria validitas. Dan dapat kita lihat dari hasil bahwa teks
kinerja klasifikasi sangat bervariasi pada dataset yang berbeda.
Kinerja FBlS dan REI jauh lebih baik daripada yang
lain. Dan jika kita hanya mempertimbangkan hasil FBlS dan REI,
AA dan FM kriteria validitas keduanya baik, dan FM mungkin
bahkan lebih baik. Jadi dalam percobaan di bawah ini, kami akan terutama menggunakan
FBlS dan REI dataset, serta AA dan validitas FM
kriteria.
V. EVALUASI METODE SELEKSI FITUR
berikut Percobaan kami dilakukan adalah untuk membandingkan
metode seleksi fitur tanpa pengawasan DF, TC, TVQ dan
TV.
Kami memilih K-cara untuk menjadi pengelompokan algorithm.Since K-means algoritma clustering mudah dipengaruhi oleh pemilihan
awal centroid, kami random menghasilkan 5 set awal
centroid untuk setiap dataset dan rata-rata 5 kali kinerja
sebagai kinerja pengelompokan akhir.
The AA dan FM hasilnya pada FBlS dan REI ditunjukkan pada Gambar.
2 ke Gambar. 5.
Dari angka-angka ini, pertama, kita dapat melihat bahwa tanpa pengawasan
metode seleksi fitur dapat meningkatkan pengelompokan
kinerja ketika istilah tertentu dihapus. Untuk semua
metode dalam percobaan kami, setidaknya 70% hal dapat
dihapus tanpa kehilangan mengelompokkan kinerja pada bothdatasets. Dan untuk sebagian besar metode seleksi fitur, ketika tertentu
fitur dihapus, pertunjukan clustering dapat
ditingkatkan. Misalnya, ketika 20% dari segi FBlS yang
dihapus dengan metode TC, dapat mencapai 9,4% nilai FM
perbaikan.
Kedua, TC adalah metode steadiest di semua. Kinerja
clustering tidak akan turun jelas ketika istilah yang
dihapus. Hasil metode TC ditunjukkan pada Gambar. 6.
Ketiga, metode TV adalah sedikit lebih buruk dari TC, tapi jauh lebih baik
daripada DF dan TVQ. Metode DF drop dengan cepat ketika lebih dari
60% terrns dihapus, dan kinerja TVQ sangat
buruk ketika lebih dari 70% dari segi dikeluarkan dari RE 1
dataset. Hasil metode TV ditunjukkan pada Gambar. 7. Bila
tidak lebih dari 80% dari segi dikeluarkan dari dataset oleh TV
metode, tidak akan ada penurunan performa clustering.
VI. KESIMPULAN
Clustering adalah salah satu tugas yang paling penting dalam data
proses penambangan untuk menemukan kelompok dan mengidentifikasi
distribusi menarik dan pola dalam data yang mendasari. Dalam
rangka memecahkan berdimensi tinggi dan data yang melekat
masalah sparsity ruang fitur, metode seleksi fitur
yang digunakan. Dalam kasus nyata, informasi kelas tidak diketahui, sehingga
hanya fitur tanpa pengawasan metode seleksi dapat dimanfaatkan.
Dalam tulisan ini, kami mengevaluasi beberapa fitur tanpa pengawasan
metode seleksi, termasuk DF, TC, TVQ dan baru
metode yang diusulkan TV. TC dan TV lebih baik dari DF dan TVQ. Kami juga menunjukkan dalam makalah ini bahwa pertunjukan dari
kriteria klaster validitas yang berbeda tidak sama, dan AA dan
kriteria FM lebih baik untuk mengevaluasi hasil clustering.
Being translated, please wait..
