Results (
Indonesian) 1:
[Copy]Copied!
B. ofCluster evaluasi kriteria validitasKetika kita berbicara dalam Bagian III, ada banyak gugus validitycriterions dapat digunakan untuk mengevaluasi kinerjamenggunakan Clustering algorithms. Tapi kinerja cluster validitaskriteria mereka sendiri berbeda. Dalam bagian ini, kita akan pertamamengevaluasi kriteria validitas ini dengan menerapkan fitur tunggalPemilihan metode DF pada berbeda dataset yangkinerja telah mencapai pandangan kompatibel dalam inibidang penelitian.DF adalah sederhana namun efektif fitur metode seleksi. Kapanmenerapkan DF pada dataset teks, jika minoritas istilah dihapus,kinerja clustering akan meningkat atau tidak ada kerugian. Kapanlebih banyak istilah dihapus, kinerja clustering akan turuncepat.Nilai-nilai berbeda berlaku kriteria ketika menerapkan DFpada dataset yang berbeda yang menunjukkan dalam gambar 1.Hasil FM AA, RS, yang masing-masing berkisar dari0.5714 untuk 0.7201, dari 0.7370 ke 0.8928, dari 0.1422 untuk0.5157. sebagai dapat dilihat pada gambar 1, empat kurva RS metodepada dataset empat yang berbeda sekitar mengikuti aturan kitadisebutkan di atas. Tetapi kurva sangat lembut, sehingga trentidak berbeda. Empat kurva ofAA adalah semua mengikuti aturan baikkecuali kurva TR45. Kurva FM pada dataset FBIS danREI mengikuti aturan DF dengan baik, sementara kurva TR45dan TR4 1 gelombang secara acak.Jadi untuk hasil dari percobaan pertama kami, AA adalah yang terbaikkriteria validitas. Dan kita dapat melihat bahwa teks dari hasilklasifikasi kinerja sangat bervariasi pada dataset yang berbeda.Kinerja FBIS dan REI jauh lebih baik daripadalain-lain. Dan jika kita hanya mempertimbangkan hasil dari FBIS dan REI,AA dan FM validitas kriteria yang sama baik, dan mungkin FMbahkan lebih baik. Jadi dalam eksperimen-eksperimen di bawah ini, kita akan terutama menggunakanFBIS dan dataset REI, serta validitas AA dan FMkriteria.V. EVALUASI METODE SELEKSI FITURPercobaan berikut yang kami dilakukan adalah untuk membandingkantanpa pengawasan fitur pilihan metode DF, TC, TVQ-nya danTV.Kami memilih K-cara untuk menjadi clustering algoritma. Sejak K-berarti clustering algoritma dengan mudah dipengaruhi oleh pilihancentroids awal, kami acak menghasilkan 5 set awalcentroids untuk setiap dataset dan rata-rata kinerja 5 kalisebagai clustering kinerja akhir.Hasil AA dan FM FBIS dan REI yang ditampilkan di ara.2-5 gambar.Dari angka-angka ini, pertama, kita dapat melihat bahwa tanpa pengawasanMetode Seleksi fitur dapat meningkatkan pengelompokankinerja pada saat syarat-syarat tertentu akan dihapus. Untuk semuametode dalam percobaan kami, setidaknya ada 70% persyaratan dapatdihapus tanpa kehilangan dalam pengelompokan kinerja pada bothdatasets. Dan untuk kebanyakan metode seleksi fitur, ketika tertentuFitur dihapus, pertunjukan clustering dapatditingkatkan. Sebagai contoh, ketika persyaratan 20% FBIS yangdihapus dengan metode TC, hal ini dapat mencapai nilai FM 9,4%perbaikan.Kedua, TC adalah metode steadiest dalam semua. Kinerjadari pengelompokan akan tidak turun jelas ketika persyaratandihapus. Hasil metode TC ditunjukkan pada gambar 6.Ketiga, metode TV sedikit lebih buruk daripada TC, tetapi jauh lebih baikdaripada DF dan TVQ-nya. Drop metode DF dengan cepat ketika lebih dari60% terrns akan dihapus, dan kinerja TVQ-nya sangatburuk ketika lebih dari 70% persyaratan akan dihapus dari RE 1dataset. Hasil metode TV ditunjukkan pada gambar 7. Kapantidak lebih dari 80% persyaratan akan dihapus dari dataset oleh TVmetode, akan ada kehilangan dalam pengelompokan kinerja.VI. KESIMPULANPengelompokan adalah salah satu tugas yang paling penting dalam dataproses pertambangan untuk menemukan kelompok dan mengidentifikasimenarik distribusi dan pola dalam data yang mendasarinya. Dalamuntuk mengatasi dimensi tinggi dan melekat datasparsity masalah fitur ruang, metode seleksi fiturdigunakan. Dalam kasus nyata, kelas informasi yang tidak diketahui, jadihanya metode seleksi tanpa pengawasan fitur dapat dimanfaatkan.Dalam tulisan ini, kita mengevaluasi beberapa fitur tanpa pengawasanmetode seleksi, termasuk DF, TC, TVQ-nya dan barumetode yang diusulkan TV. TC dan TV yang lebih baik daripada DF dan TVQ-nya. Kami juga menunjukkan ini kertas yang pertunjukanGugus berbeda berlaku kriteria tidak sama, dan AA danFM kriteria lebih baik untuk mengevaluasi hasil clustering.
Being translated, please wait..
