Results (
Indonesian) 2:
[Copy]Copied!
tanpa pengawasan, pendekatan berbasis pola untuk mengkategorikan kasus berkaitan dengan ontologi yang diberikan. Namun, pola yang sangat terbatas.
3. Pengelompokan SOM
Untuk mendapatkan metadata dan tag untuk halaman Web, pertama kita melakukan proses pengelompokan pada training set dari halaman Web. Kami kemudian fitur gener¬ate peta untuk mengungkapkan hubungan antara halaman Web serta kata kunci. Pada subbagian berikut, kita akan mulai dari langkah-langkah preprocessing, dan diikuti dengan proses pengelompokan menggunakan algoritma belajar SOM. Dua proses pelabelan kemudian diterapkan pada hasil dilatih untuk membangun peta fitur yang ditandai hubungan antara kata kunci dan halaman Web.
3.1. Preprocessing dokumen
Pendekatan kami dimulai dengan praktek standar di informasi re¬trieval (Salton & McGill, 1983), yaitu model ruang vektor, dokumen en-kode dengan vektor, di mana setiap elemen dari vektor dokumen sesuai dengan indeks yang berbeda istilah. Dalam karya ini korpus pelatihan berisi satu set halaman Web berita Cina diposting pada CNA (Central News Agency) Newswire. Kami memilih halaman ini karena alasan sebagai berikut. Yang pertama adalah mereka yang tersedia untuk umum untuk tujuan penelitian dan digunakan sebagai test set untuk banyak karya. Alasan lainnya adalah bahwa halaman ini mengandung kurang tag dan metadata yang harus memenuhi kebutuhan kita. Meskipun halaman Web tersebut sebagian besar ditulis dalam bahasa Cina, metode kami dapat diterapkan ke halaman Web dalam bahasa apapun, selama mereka dapat dibagi ke dalam daftar kata kunci. Untuk mengkodekan halaman Web ke vektor, kami hal pertama indeks ex-saluran (atau kata kunci) dari halaman ini. Secara tradisional ada dua skema untuk mengekstraksi istilah dari teks-teks Cina. Salah satunya adalah skema berbasis karakter dan yang lainnya adalah skema berbasis kata (Huang & Robertson, 1997). Kami mengadopsi skema kedua karena karakter Cina individu umumnya tidak membawa makna-konteks tertentu. Sebuah kata dalam bahasa Cina terdiri oleh dua atau lebih karakter Cina. Setelah mengekstrak kata-kata dari semua halaman web pelatihan, kami mengumpulkan semua kata kunci diekstrak dan mendapatkan V kosakata untuk korpus ini. Hal ini kemudian digunakan untuk mengkodekan halaman Web menjadi vektor biner. Dalam vektor ini, unsur dengan nilai 1 menunjukkan adanya kata yang sesuai di halaman web ini; jika tidak, nilai 0 indi¬cates tidak adanya kata. Kami menggunakan skema vektor biner untuk en-kode halaman Web karena kami berniat untuk cluster halaman Web sesuai dengan co-terjadinya kata-kata, yang tidak relevan dengan bobot dari kata-kata individu. Perhatikan bahwa kita hanya menyimpan kata-kata yang termasuk isi dari halaman, yaitu kita membuang kata-kata dalam HTML atau XML tag di halaman Web.
Masalah dengan metode encoding ini adalah bahwa jika kosakata sangat besar dimensi dari vektor juga tinggi. Secara umum, dimensi di urutan 1.000-10.000 sangat umum bahkan untuk koleksi cukup kecil halaman Web. Akibatnya, teknik untuk mengendalikan dimensi dari ruang vektor yang diperlukan. Informasi pengambilan beberapa teknik yang banyak digunakan untuk kembali Duce jumlah istilah indeks. Sayangnya, teknik ini tidak sepenuhnya berlaku untuk dokumen Cina. Misalnya, stem¬ming umumnya tidak diperlukan untuk teks-teks Cina. Di sisi lain, kita dapat menggunakan kata-kata berhenti dan seleksi kelompok kata benda untuk mengurangi jumlah istilah indeks. Dalam karya ini, kita mengadopsi ap¬proach sederhana dengan memungkinkan hanya kata benda menjadi hal indeks. Dalam experi¬ments kami, pendekatan ini mampu mengurangi kosakata untuk ukuran yang wajar.
Being translated, please wait..
