Results (
Indonesian) 2:
[Copy]Copied!
b
dirata-ratakan Akurasi:
Rand Statistik:
Folkes dan Mallows Indeks:
Dalam Bagian IV dan Bagian V, kita akan menggunakan DF, TC, TVQ dan
TV metode untuk mengurangi dimensi fitur empat
dataset: FBlS, REI, TR45 dan TR41. Kemudian klaster validitas
kriteria akan digunakan untuk mengevaluasi efek dari fitur ini
metode seleksi.
A. Dataset
kinerja klasifikasi Teks bervariasi pada berbagai
dataset. Jadi kami memilih empat dataset teks yang berbeda untuk mengevaluasi
kinerja metode seleksi fitur. The
karakteristik berbagai koleksi dokumen yang digunakan dalam kami
percobaan dirangkum dalam Tabel 1.
Data yang mengatur FBlS adalah dari Broadcast Luar Negeri Informasi
Data Jasa dari TREC-5 [16]. Data set REI adalah dari Reuters-
21.578 teks koleksi tes kategorisasi Distribusi 1.0 [17].
Data set TR45 dan TR4 1 yang berasal dari TREC-6
koleksi. Untuk semua set data, kami menggunakan stop-daftar untuk menghapus
kata-kata umum, dan kata-kata itu berasal menggunakan Porter
akhiran-stripping algoritma [18].
Ketika kami berbicara dalam Bagian III, ada banyak validitycriterions cluster dapat digunakan untuk mengevaluasi kinerja dari
klastering algoritma. Tapi kinerja validitas klaster
kriteria sendiri berbeda. Pada bagian ini, pertama-tama kita akan
mengevaluasi kriteria validitas ini dengan menerapkan fitur tunggal
metode seleksi DF pada dataset yang berbeda di mana
kinerja sudah mencapai tampilan yang kompatibel dalam
bidang penelitian.
DF adalah metode seleksi fitur sederhana namun efektif. Ketika
menerapkan DF pada dataset teks, jika minoritas istilah dihapus,
kinerja pengelompokan akan ditingkatkan atau tidak ada kerugian. Ketika
lebih istilah dihapus, kinerja pengelompokan akan turun
dengan cepat.
Nilai-nilai kriteria validitas yang berbeda ketika menerapkan DF
pada dataset yang berbeda menunjukkan pada Gambar. 1.
Hasil AA, RS, FM adalah masing-masing berkisar dari
,5714 ke ,7201, 0,7370-0,8928, 0,1422 ke dari
,5157. Seperti dapat dilihat pada Gambar. 1, empat kurva metode RS
di berbagai empat dataset sekitar mengikuti aturan yang kami
sebutkan di atas. Tapi kurva sangat lembut, sehingga tren
yang tidak berbeda. Empat kurva ofAA semua mengikuti aturan dengan baik
kecuali lekukan TR45. Kurva FM pada dataset FBlS dan
REI mengikuti aturan DF sangat baik, sementara kurva dari TR45
dan TR4 1 gelombang acak.
Jadi, untuk hasil percobaan pertama kami, AA adalah yang terbaik
kriteria validitas. Dan dapat kita lihat dari hasil bahwa teks
kinerja klasifikasi sangat bervariasi pada dataset yang berbeda.
Kinerja FBlS dan REI jauh lebih baik daripada yang
lain. Dan jika kita hanya mempertimbangkan hasil FBlS dan REI,
AA dan FM kriteria validitas keduanya baik, dan FM mungkin
bahkan lebih baik. Jadi dalam percobaan di bawah ini, kami terutama akan menggunakan
FBlS dan REI dataset, serta AA dan validitas FM
kriteria.
Being translated, please wait..
