unsupervised, pattern-based approac

unsupervised, pattern-based approach to categorize instances with regard to a given ontology. However, the patterns are very limited.
3. SOM clustering
To obtain the metadata and tags for a Web page, we first perform a clustering process on a training set of Web pages. We then gener¬ate feature maps to reveal the relationships among Web pages as well as keywords. In the following subsections, we will start from the preprocessing steps, and follow by the clustering process using SOM learning algorithm. Two labeling processes are then applied to the trained result to construct feature maps which characterized the relationship among keywords and Web pages.
3.1. Preprocessing of documents
Our approach begins with a standard practice in information re¬trieval (Salton & McGill, 1983), i.e. the vector space model, to en-code documents with vectors, in which each element of a document vector corresponds to a different index terms. In this work the training corpus contains a set of Chinese news Web pages posted on CNA (Central News Agency) newswire. We select these pages due to the reasons as follows. The first is they are publicly available for research purpose and are used as test set for many works. The other reason is that these pages contain less tags and metadata that should meet our need. Although these Web pages are mostly written in Chinese, our method can be applied to Web pages in any language, as long as they can be segmented into lists of keywords. To encode a Web page into a vector, we first ex-tract index terms (or keywords) from this page. Traditionally there are two schemes for extracting terms from Chinese texts. One is character-based scheme and the other is word-based scheme (Huang & Robertson, 1997). We adopt the second scheme because individual Chinese characters generally carry no context-specific meaning. A word in Chinese is composed by two or more Chinese characters. After extracting words from all training Web pages, we collect all extracted keywords and obtain a vocabulary V for this corpus. It is then used to encode a Web page into a binary vector. In this vector, an element with value 1 indicates the presence of its corresponding word in this Web page; otherwise, a value of 0 indi¬cates the absence of the word. We use binary vector scheme to en-code the Web pages because we intend to cluster Web pages according to the co-occurrence of the words, which is irrelevant to the weights of the individual words. Note that we only keep those words that belong to the content of the pages, i.e. we discard those words within HTML or XML tags in the Web pages.
A problem with this encoding method is that if the vocabulary is very large the dimensionality of the vector is also high. In general, dimensions on the order of 1000–10000 are very common for even reasonably small collections of Web pages. As a result, techniques for controlling the dimensionality of the vector space are required. In information retrieval several techniques are widely used to re-duce the number of index terms. Unfortunately, these techniques are not fully applicable to Chinese documents. For example, stem¬ming is generally not necessary for Chinese texts. On the other hand, we can use stop words and noun group selection to reduce the number of index terms. In this work, we adopt a simple ap¬proach by allowing only nouns being index terms. In our experi¬ments, this approach is able to reduce the vocabulary to a reasonable size.

0/5000

From: -

To: -

Results (Indonesian) 1: [Copy]

Copied!

tanpa pengawasan, pola berbasis pendekatan untuk mengkategorikan contoh dalam ontologi tertentu. Namun, pola-pola sangat terbatas.3. SOM pengelompokanUntuk mendapatkan metadata dan tag untuk halaman Web, kita pertama kali melakukan proses clustering pada serangkaian pelatihan halaman Web. Kami kemudian gener¬ate memiliki peta untuk mengungkapkan hubungan antara halaman Web sebagai kata kunci. Dalam subbagian berikutnya, kita akan mulai dari langkah-langkah preprocessing, dan ikuti oleh proses clustering yang menggunakan SOM belajar algoritma. Dua proses pelabelan kemudian diterapkan untuk hasil yang terlatih untuk membangun peta fitur yang ditandai dalam hubungan di antara kunci dan halaman Web.3.1. preprocessing dokumenPendekatan kami dimulai dengan praktik standar di informasi re¬trieval (Salton & McGill, 1983), yakni ruang vector model, untuk en-kode dokumen dengan vektor, di mana setiap elemen dari dokumen vektor sesuai dengan index yang berbeda istilah. Dalam karya ini corpus pelatihan berisi kumpulan Berita Cina Halaman Web yang diposting pada newswire CNA (Central News Agency). Kami pilih Halaman ini karena alasan sebagai berikut. Yang pertama adalah mereka tersedia untuk publik untuk tujuan penelitian dan digunakan sebagai set tes untuk banyak karya. Alasan lain adalah bahwa Halaman ini mengandung kurang tag dan metadata yang harus memenuhi kebutuhan kita. Meskipun halaman Web ini sebagian besar ditulis dalam bahasa Cina, metode kami dapat diterapkan ke halaman Web dalam bahasa apapun, asalkan mereka dapat dibagi menjadi daftar kata kunci. Untuk mengkodekan halaman Web ke vektor, kami mantan-saluran pertama indeks persyaratan (atau kata kunci) dari Halaman ini. Secara tradisional ada dua skema untuk mengeluarkan syarat dari teks-teks Cina. Satu skema berbasis karakter dan yang lain adalah Firman berbasis skema (Huang & Robertson, 1997). Kita mengadopsi skema kedua karena karakter Cina individu umumnya membawa ada arti konteks khusus. Sebuah kata dalam bahasa Cina terdiri oleh dua atau lebih karakter Cina. Setelah mengeluarkan kata-kata dari semua pelatihan halaman Web, kami mengumpulkan semua kunci diekstrak dan memperoleh Kosakata V untuk corpus ini. Hal ini kemudian digunakan untuk mengkodekan halaman Web ke vektor biner. Dalam vektor ini, sebuah elemen dengan nilai 1 menunjukkan adanya kata yang sesuai di halaman Web ini; Sebaliknya, nilai 0 indi¬cates tidak adanya kata. Kami menggunakan vektor biner skema untuk en-kode halaman Web karena kami berniat untuk cluster halaman Web menurut Co-terjadinya kata-kata, yang tidak relevan bobot kata-kata. Perhatikan bahwa kita hanya menjaga kata-kata yang berasal dari konten halaman, yaitu kita membuang kata-kata dalam tag HTML atau XML di halaman Web.Masalah dengan metode pengkodean ini adalah bahwa jika kosa kata sangat besar dimensi vektor juga tinggi. Secara umum, dimensi urutan 1000-10000 sangat umum bahkan cukup kecil koleksi halaman Web. Sebagai akibatnya, teknik untuk mengontrol dimensi ruang vektor diperlukan. Dalam information retrieval beberapa teknik yang secara luas digunakan untuk re-duce jumlah istilah indeks. Sayangnya, teknik ini tidak sepenuhnya berlaku untuk dokumen-dokumen Cina. Sebagai contoh, stem¬ming ini umumnya tidak diperlukan untuk teks-teks Cina. Di sisi lain, kita dapat menggunakan kata-kata henti dan benda kelompok pilihan untuk mengurangi jumlah istilah indeks. Dalam karya ini, kita mengadopsi ap¬proach sederhana dengan memungkinkan hanya kata yang indeks istilah. Di experi¬ments kami, pendekatan ini mampu mengurangi kosa kata untuk ukuran yang wajar.

Being translated, please wait..

Results (Indonesian) 2:[Copy]

Copied!

tanpa pengawasan, pendekatan berbasis pola untuk mengkategorikan kasus berkaitan dengan ontologi yang diberikan. Namun, pola yang sangat terbatas.
3. Pengelompokan SOM
Untuk mendapatkan metadata dan tag untuk halaman Web, pertama kita melakukan proses pengelompokan pada training set dari halaman Web. Kami kemudian fitur gener¬ate peta untuk mengungkapkan hubungan antara halaman Web serta kata kunci. Pada subbagian berikut, kita akan mulai dari langkah-langkah preprocessing, dan diikuti dengan proses pengelompokan menggunakan algoritma belajar SOM. Dua proses pelabelan kemudian diterapkan pada hasil dilatih untuk membangun peta fitur yang ditandai hubungan antara kata kunci dan halaman Web.
3.1. Preprocessing dokumen
Pendekatan kami dimulai dengan praktek standar di informasi re¬trieval (Salton & McGill, 1983), yaitu model ruang vektor, dokumen en-kode dengan vektor, di mana setiap elemen dari vektor dokumen sesuai dengan indeks yang berbeda istilah. Dalam karya ini korpus pelatihan berisi satu set halaman Web berita Cina diposting pada CNA (Central News Agency) Newswire. Kami memilih halaman ini karena alasan sebagai berikut. Yang pertama adalah mereka yang tersedia untuk umum untuk tujuan penelitian dan digunakan sebagai test set untuk banyak karya. Alasan lainnya adalah bahwa halaman ini mengandung kurang tag dan metadata yang harus memenuhi kebutuhan kita. Meskipun halaman Web tersebut sebagian besar ditulis dalam bahasa Cina, metode kami dapat diterapkan ke halaman Web dalam bahasa apapun, selama mereka dapat dibagi ke dalam daftar kata kunci. Untuk mengkodekan halaman Web ke vektor, kami hal pertama indeks ex-saluran (atau kata kunci) dari halaman ini. Secara tradisional ada dua skema untuk mengekstraksi istilah dari teks-teks Cina. Salah satunya adalah skema berbasis karakter dan yang lainnya adalah skema berbasis kata (Huang & Robertson, 1997). Kami mengadopsi skema kedua karena karakter Cina individu umumnya tidak membawa makna-konteks tertentu. Sebuah kata dalam bahasa Cina terdiri oleh dua atau lebih karakter Cina. Setelah mengekstrak kata-kata dari semua halaman web pelatihan, kami mengumpulkan semua kata kunci diekstrak dan mendapatkan V kosakata untuk korpus ini. Hal ini kemudian digunakan untuk mengkodekan halaman Web menjadi vektor biner. Dalam vektor ini, unsur dengan nilai 1 menunjukkan adanya kata yang sesuai di halaman web ini; jika tidak, nilai 0 indi¬cates tidak adanya kata. Kami menggunakan skema vektor biner untuk en-kode halaman Web karena kami berniat untuk cluster halaman Web sesuai dengan co-terjadinya kata-kata, yang tidak relevan dengan bobot dari kata-kata individu. Perhatikan bahwa kita hanya menyimpan kata-kata yang termasuk isi dari halaman, yaitu kita membuang kata-kata dalam HTML atau XML tag di halaman Web.
Masalah dengan metode encoding ini adalah bahwa jika kosakata sangat besar dimensi dari vektor juga tinggi. Secara umum, dimensi di urutan 1.000-10.000 sangat umum bahkan untuk koleksi cukup kecil halaman Web. Akibatnya, teknik untuk mengendalikan dimensi dari ruang vektor yang diperlukan. Informasi pengambilan beberapa teknik yang banyak digunakan untuk kembali Duce jumlah istilah indeks. Sayangnya, teknik ini tidak sepenuhnya berlaku untuk dokumen Cina. Misalnya, stem¬ming umumnya tidak diperlukan untuk teks-teks Cina. Di sisi lain, kita dapat menggunakan kata-kata berhenti dan seleksi kelompok kata benda untuk mengurangi jumlah istilah indeks. Dalam karya ini, kita mengadopsi ap¬proach sederhana dengan memungkinkan hanya kata benda menjadi hal indeks. Dalam experi¬ments kami, pendekatan ini mampu mengurangi kosakata untuk ukuran yang wajar.

Being translated, please wait..

Results (Indonesian) 3:[Copy]

Copied!

Being translated, please wait..

Other languages

The translation tool support: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Chinese, Chinese Traditional, Corsican, Croatian, Czech, Danish, Detect language, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Frisian, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Myanmar (Burmese), Nepali, Norwegian, Odia (Oriya), Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scots Gaelic, Serbian, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Tatar, Telugu, Thai, Turkish, Turkmen, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, Xhosa, Yiddish, Yoruba, Zulu, Language translation.