Results (
Indonesian) 2:
[Copy]Copied!
kata kunci. Halaman Web di korpus yang pertama dikodekan ke dalam satu set vektor dokumen seperti yang dijelaskan dalam Bagian 3.1. Kami bermaksud untuk mengatur halaman Web tersebut ke dalam satu set cluster sehingga halaman Web yang sama akan jatuh ke dalam cluster yang sama. Selain itu, clus¬ters serupa harus 'dekat' dalam beberapa cara. Artinya, kita harus mampu mengatur cluster sehingga cluster yang berisi halaman Web yang sama harus dekat di beberapa ruang pengukuran. Algoritma pembelajaran unsu¬pervised jaringan SOM (Kohonen, 1997) memenuhi kebutuhan kita. Algoritma SOM memetakan sebuah set vektor tinggi dimen¬sional untuk peta dua dimensi dari neuron menurut kesamaan antara vektor. Vektor yang sama, vektor yaitu dengan jarak kecil, akan memetakan ke neuron yang sama atau di sekitarnya setelah pelatihan (atau belajar) proses. Yaitu, kesamaan antara vec¬tors di ruang asli yang diawetkan dalam ruang dipetakan. Apply¬ing algoritma SOM ke vektor dokumen, kita benar-benar melakukan proses pengelompokan pada korpus. Sebuah neuron di peta yang terlatih dapat dianggap sebagai sebuah cluster. Halaman Web yang sama akan jatuh ke dalam neuron yang sama atau tetangga (cluster). Selain itu, similar¬ity dari dua kelompok dapat diukur dengan jarak geometris be¬tween neuron yang sesuai mereka. Untuk memutuskan cluster yang halaman Web atau kata kunci milik, kita menerapkan dua proses pelabelan pada halaman Web dan kata kunci, masing-masing. Setelah proses pelabelan halaman Web, setiap halaman Web yang terkait dengan neuron di peta. Kami merekam asosiasi tersebut dan mendapatkan peta klaster dokumen (DCM). Demikian pula, setiap neuron akan diberi label oleh satu set kunci-kata setelah proses pelabelan kata kunci dan kami memiliki peta klaster kunci-kata (KCM). Kami kemudian menggunakan peta ini untuk menghasilkan metadata semantik dan tag.
Kami mendefinisikan beberapa denotasi dan menggambarkan proses pengelompokan sini. Biarkan xi ¼ fxinj1 6 n 6 Ng; 1 6 i 6 M, menjadi vektor dokumen dari halaman Web engan di korpus, di mana N adalah jumlah kata kunci dan M adalah jumlah halaman web di korpus. Kami menggunakan vektor ini sebagai masukan pelatihan untuk jaringan SOM. Jaringan ini terdiri dari kotak biasa neuron. Setiap neuron dalam jaringan memiliki N sinapsis. Letwj ¼ fwjnj1 6 n 6 Ng; 1 6 j 6 J, menjadi vektor bobot sinaptik dari thejth neuron dalam jaringan, whereJ adalah num¬ber neuron dalam jaringan. Kami dilatih jaringan dengan algoritma fol¬lowing SOM:
Langkah 1: Secara acak pilih xi vektor pelatihan.
Langkah 2: Cari neuronj dengan bobot sinaptik wj yang paling dekat dengan xi, yaitu
kxi ~ wjk ¼ min kxi ~ WKK:
16k6J
Langkah 3: Untuk setiap l neuron di lingkungan neuronj, memperbarui bobot synaptic sebesar
wnew
l ¼ wold
l þ aðtÞðxi ~ wold
Þ
l;. di mana aðtÞ adalah gain pelatihan di zaman nomor t
Langkah 4: Ulangi Langkah 1 sampai 4 sampai semua vektor pelatihan yang dipilih. Goto Langkah 5.
Langkah 5: Meningkatkan zaman nomor t. Jika t mencapai preset jumlah pelatihan zaman maksimum T, menghentikan proses pelatihan; sebaliknya menurunkan aðtÞ dan ukuran lingkungan, goto Langkah 1.
Being translated, please wait..