An important issue that distinguish

An important issue that distinguishes text classification from the other classification tasks discussed in this book is the possibility of multiple classifications.
Up to now we have assumed that there is a set of mutually exclusive categories and that each object must inevitably fit into one and only one of these.
Text classification is rather different. In general we may have N categories          

such as Medicine, Business, Finance, Historical, Biographical, Management and
Education and it is perfectly possible for a document to fit into several of these categories, possibly even all of them or possibly none.
Rather than broaden the definition of classification used up to now we prefer
to think of the text classification task as N separate binary classification tasks,
e.g. — Is the document about medicine? Yes/No I - Is the document about business? Yes/No — Is the document about finance? Yes/No and so on. The need to perform N separate classilication tasks adds considerably to the time involved for this form of classification, which even for a single classification is usually computationally expensive.          

15.2 Representing Text Documents for Data
Mining
For standard' data mining tasks the data is presented to the data mining system in the standard form described in Chapter 1, or something similar. There are a fixed number of attributes (or features) which were chosen before the data was collected. For text mining the dataset usually comprises the documents
themselves and the features are extracted from. the documents automatically
based on their content before the classification algorithm is applied. There are
generally a very large number of features, most of them only occurring rarely, with a high proportion of noisy and irrelevant features.
There are several ways in which the conversion of documents from plain
text to instances with a fixed number of attributes in a training set can be carried out. For example we might count tlie number of times specified phrases occur, or perhaps any combination of t1v(j||||Esecutivc words, or we might count
the occurrence of two or three character combinations (knowm as bigrams and
trigrams respectively). For the purpose of This chapter we will assame that a simple word-based representation is used, known-as a bag-of-words          

Representation. With this representation a document is considered to be simply a collection of the words which occur in it at least once. The order of the words,
the combinations in which they occur, paragraph structuring, punctuation and of course the nieanings of the words are all ignored. A document is just a collection of words placed in some arbitrary order, say alphabetical, together with          

a count of how niany times each one occurs, or some other measure of the
importance of each word.
Assuming that we wish to store an 'importance value' for each word in a
document as one instance in a training set, how should we do it? If a given document has say 106 different words, we cannot just use a representation with 106 attributes (ignoring classifications). Other documents in the dataset may use other words, probably overlapping with the 106 in the current instance, but not necessarily so. The unseen documents that we wish to classify may have words
that are not used in any of the training 4@fflSl.(l]ll^s' ^n obvious—but extremely
bad—approach would be to allocate as ;i||g||j[||,ttribiites as are needed to allow
for all possible words that might be used %id|]fi^ possible iinseen document Unfortiinately if the langiiage of the documents is English, the number of possible words is approximately one million, which is a liopelessly impractical number of attribiites to iise.
A much better approach is to restrict the represciitation to the words that actiially occiir in the training clociimeiits. Tills can still be many thoiisands
(or more) and we will look at ways of r(^

An important issue that distinguishes text classification from the other classification tasks discussed in this book is the possibility of multiple classifications. 
 Up to now we have assumed that there is a set of mutually exclusive categories and that each object must inevitably fit into one and only one of these. 
 Text classification is rather different. In general we may have N categories          
 
such as Medicine, Business, Finance, Historical, Biographical, Management and 
 Education and it is perfectly possible for a document to fit into several of these categories, possibly even all of them or possibly none. 
 Rather than broaden the definition of classification used up to now we prefer 
 to think of the text classification task as N separate binary classification tasks, 
 e.g. — Is the document about medicine? Yes/No I - Is the document about business? Yes/No — Is the document about finance? Yes/No and so on. The need to perform N separate classilication tasks adds considerably to the time involved for this form of classification, which even for a single classification is usually computationally expensive.          
 
15.2 Representing Text Documents for Data 
 Mining 
 For standard' data mining tasks the data is presented to the data mining system in the standard form described in Chapter 1, or something similar. There are a fixed number of attributes (or features) which were chosen before the data was collected. For text mining the dataset usually comprises the documents 
 themselves and the features are extracted from. the documents automatically 
 based on their content before the classification algorithm is applied. There are 
 generally a very large number of features, most of them only occurring rarely, with a high proportion of noisy and irrelevant features. 
 There are several ways in which the conversion of documents from plain 
 text to instances with a fixed number of attributes in a training set can be carried out. For example we might count tlie number of times specified phrases occur, or perhaps any combination of t1v(j||||Esecutivc words, or we might count 
 the occurrence of two or three character combinations (knowm as bigrams and 
 trigrams respectively). For the purpose of This chapter we will assame that a simple word-based representation is used, known-as a bag-of-words          
 
Representation. With this representation a document is considered to be simply a collection of the words which occur in it at least once. The order of the words, 
 the combinations in which they occur, paragraph structuring, punctuation and of course the nieanings of the words are all ignored. A document is just a collection of words placed in some arbitrary order, say alphabetical, together with          
 
a count of how niany times each one occurs, or some other measure of the 
 importance of each word. 
 Assuming that we wish to store an 'importance value' for each word in a 
 document as one instance in a training set, how should we do it? If a given document has say 106 different words, we cannot just use a representation with 106 attributes (ignoring classifications). Other documents in the dataset may use other words, probably overlapping with the 106 in the current instance, but not necessarily so. The unseen documents that we wish to classify may have words 
 that are not used in any of the training 4@fflSl.(l]ll^s' ^n obvious—but extremely 
 bad—approach would be to allocate as ;i||g||j[||,ttribiites as are needed to allow 
 for all possible words that might be used %id|]fi^ possible iinseen document Unfortiinately if the langiiage of the documents is English, the number of possible words is approximately one million, which is a liopelessly impractical number of attribiites to iise. 
 A much better approach is to restrict the represciitation to the words that actiially occiir in the training clociimeiits. Tills can still be many thoiisands 
 (or more) and we will look at ways of r(^

0/5000

From: -

To: -

Results (Thai) 1: [Copy]

Copied!

ปัญหาที่สำคัญที่แตกต่างจากการจัดหมวดหมู่ข้อความในงานการจัดหมวดหมู่อื่น ๆ ที่กล่าวถึงในหนังสือเล่มนี้เป็นไปได้ของการจำแนกประเภทหลาย
ถึงตอนนี้เราได้มีการสันนิษฐานว่ามีเป็นชุดของหมวดหมู่พิเศษร่วมกันและที่แต่ละวัตถุย่อมต้องพอดีเป็นหนึ่งและมีเพียงหนึ่งในจำนวนนี้
การจัดหมวดหมู่ข้อความที่แตกต่างกันค่อนข้างโดยทั่วไปเราอาจจะมี n ประเภท          

เช่นยา, ธุรกิจการเงินประวัติศาสตร์ชีวประวัติจัดการและ
การศึกษาและเป็นไปได้อย่างสมบูรณ์แบบสำหรับเอกสารให้พอดีกับเป็นหลายประเภทเหล่านี้อาจเป็นไปได้ทั้งหมดของพวกเขาหรืออาจจะไม่มี
แทนที่จะขยายความหมายของการจัดหมวดหมู่ใช้ถึงตอนนี้เราชอบ
จะคิดว่างานที่จัดหมวดหมู่ข้อความที่เป็น n แยกงานการจำแนกไบนารี
เช่น - เป็นเอกสารที่เกี่ยวกับการรักษาด้วยยาหรือไม่ ใช่ / ไม่ใช่ฉัน - เป็นเอกสารที่เกี่ยวกับธุรกิจหรือไม่ ใช่ / ไม่ใช่ - เป็นเอกสารที่เกี่ยวกับการเงินหรือไม่ ใช่ / ไม่ใช่และอื่น ๆ จำเป็นที่จะต้องดำเนินงาน n classilication แยกเพิ่มมากถึงเวลาที่เกี่ยวข้องกับรูปแบบของการจัดหมวดหมู่นี้ซึ่งแม้สำหรับการจัดหมวดหมู่เดียวมักจะมีราคาคอมพิวเตอร์

15.2 เอกสารข้อความที่เป็นตัวแทนของข้อมูลการทำเหมืองแร่

มาตรฐาน 'งานการทำเหมืองข้อมูลข้อมูลที่จะนำเสนอระบบการทำเหมืองข้อมูลในรูปแบบมาตรฐานที่อธิบายไว้ในบทที่ 1 หรือสิ่งที่คล้ายกันมีจำนวนคงที่ของคุณสมบัติ (หรือคุณลักษณะ) ซึ่งได้รับการแต่งตั้งก่อนที่จะถูกเก็บรวบรวมข้อมูล การทำเหมืองแร่ข้อความชุดมักจะประกอบด้วยเอกสาร
ตัวเองและคุณสมบัติที่สกัดจาก เอกสารโดยอัตโนมัติ
ขึ้นอยู่กับเนื้อหาของพวกเขาก่อนที่จะขั้นตอนวิธีการจัดหมวดหมู่ถูกนำไปใช้ โดยทั่วไปมีจำนวนมากของคุณสมบัติที่
ส่วนใหญ่ของพวกเขาที่เกิดขึ้นเพียง แต่ไม่ค่อยมีสัดส่วนที่สูงของคุณสมบัติที่มีเสียงดังและไม่เกี่ยวข้อง
มีหลายวิธีในการที่การแปลงเอกสารจากธรรมดา
ข้อความในกรณีที่มีจำนวนคงที่ของคุณลักษณะที่อยู่ในชุดฝึกอบรมสามารถดำเนินการออกเป็น ตัวอย่างเช่นเราอาจจะนับจำนวนครั้งที่ tlie วลีที่ระบุจะเกิดขึ้นหรืออาจจะรวมกันของ t1v (ญ | | | | คำ esecutivc,หรือเราอาจจะนับ
การเกิดขึ้นของสองหรือสามชุดตัวอักษร (knowm เป็น bigrams trigrams และ
ตามลำดับ) เพื่อวัตถุประสงค์ในบทนี้เราจะ assame ที่แสดงคำที่ใช้ง่ายที่จะใช้เป็นที่รู้จักกันเป็น          

แทนถุงของคำด้วยการเป็นตัวแทนเอกสารนี้ถือว่าเป็นเพียงชุดของคำที่เกิดขึ้นในอย่างน้อยหนึ่งครั้ง คำสั่งของคำ,
ชุดที่พวกเขาเกิดขึ้นโครงสร้างวรรคเครื่องหมายวรรคตอนและแน่นอน nieanings ของคำจะถูกละเว้นทั้งหมด เอกสารเป็นเพียงชุดของคำวางในบางคำสั่งโดยพลการพูดตัวอักษรร่วมกับ          

นับว่า niany ครั้งในแต่ละหนึ่งเกิดขึ้นหรือบางมาตรการอื่น ๆ ของ
ความสำคัญของแต่ละคำ
สมมติว่าเราต้องการที่จะเก็บค่า 'สำคัญ' สำหรับแต่ละคำในเอกสาร
เป็นหนึ่งเช่นในชุดการฝึกอบรมวิธีการที่เราควรจะทำมันได้หรือไม่ หากเอกสารที่ระบุได้ว่า 106 คำที่แตกต่างกันเราไม่สามารถใช้เพียงการแสดงที่มีคุณลักษณะ 106 (ละเว้นจำแนกประเภท) เอกสารอื่น ๆ ในชุดอาจจะใช้คำอื่น ๆ ที่อาจจะทับซ้อนกันด้วย 106 ในเช่นปัจจุบัน แต่ไม่จำเป็นต้องให้ เอกสารที่มองไม่เห็นว่าเราต้องการที่จะจัดอาจมีคำ
ที่ไม่ได้ใช้ในการใด ๆ ของการฝึกอบรม 4 @ fflsl. (l] ll จะ
s '
n ที่เห็นได้ชัดมาก แต่
ไม่ดีจะเป็นวิธีการในการจัดสรรเป็น; ฉัน | | กรัม | | เจ [| |, ttribiites ที่มีความจำเป็นเพื่อให้
คำที่เป็นไปได้ทั้งหมดที่อาจจะมีการใช้รหัส% |] สายที่เป็นไปได้
iinseen เอกสาร unfortiinately ถ้า langiiage ของ เอกสารที่เป็นภาษาอังกฤษจำนวนคำที่เป็นไปได้จะอยู่ที่ประมาณหนึ่งล้านซึ่งเป็นตัวเลขที่ทำไม่ได้ liopelessly ของ attribiites จะ IISE
วิธีการที่ดีมากคือการ จำกัด represciitation คำว่า actiially occiir ใน clociimeiits การฝึกอบรม เทศกาลยังสามารถเป็นจำนวนมาก thoiisands
(หรือมากกว่า) และเราจะดูที่วิธีการของ r (
tliis uiimber ในส่วนที่ 15.3 และ 15.4 ด้านล่าง. เราวางคำทั้งหมด iiscd อัล, LC
แหละ oiic-r ป่วย "พจนานุกรม * และ          

จัดสรรตำแหน่งแอตทริบิวต์ในแต่ละแถวของการฝึกอบรมของเราที่ตั้งไว้สำหรับแต่ละคน เพื่อที่เราจะทำนี้โดยพลการเพื่อให้เราสามารถคิดว่ามันเป็นตัวอักษร
แทนถุงของคำเป็นอย่างโดยเนื้อแท้หนึ่งซ้ำซ้อนสูง
มันอาจเป็นไปได้ว่าสำหรับ iiiost เอกสารใด ๆ โดยเฉพาะอย่างยิ่งของ. เขาแอตทริบิวต์ / คุณสมบัติ (เช่นคำ) จะไม่ปรากฏ ตัวอย่างเช่นพจนานุกรมที่ใช้อาจจะมี 10,000 คำ
แต่เอกสารที่ระบุอาจมีเพียง 200 คำที่แตกต่างกัน ถ้าเป็นเช่นนั้นการแสดงที่เป็นตัวอย่างในการฝึกอบรมชุดจะมี 9,800 จาก 10,000 attribiites ที่มีค่าศูนย์แสดงไม่เกิดขึ้น
เช่นที่ไม่ได้ใช้
ถ้ามีหลายประเภทมีสองเป็นไปได้ในการสร้างพจนานุกรมของคำในการเก็บรวบรวมของ dociiments การฝึกอบรมแล้วแต่อย่างใดอย่างหนึ่งจะใช้พจนานุกรมมีแนวโน้มที่จะมีขนาดใหญ่
แรกเป็นวิธีการพจนานุกรมท้องถิ่น เราในรูปแบบที่แตกต่างกันพจนานุกรม
สำหรับแต่ละประเภทโดยใช้คำเหล่านั้นเท่านั้นที่ปรากฏใน dociiments จัดว่าอยู่ในประเภทที่ นี้จะช่วยให้แต่ละพจนานุกรมจะมีขนาดค่อนข้างเล็กที่ค่าใช้จ่ายของที่จำเป็นต้องสร้าง n ของพวกเขาที่มีหมวดหมู่ ar
วิธีที่สองคือการสร้างพจนานุกรมทั่วโลกซึ่ง

incliides ทุกคำที่ occiir oiice อย่างน้อยในใด ๆ ของ dociiments นี้จะถูกนำมาใช้สำหรับการจำแนก
ในแต่ละหมวดหมู่ n constrik'tin
- glol) อัลพจนานุกรมอย่างชัดเจนจะมากได้เร็วกว่าการสร้าง ar ท้องถิ่น tioiiaries-DIC biit ที่          

Being translated, please wait..

Results (Thai) 2:[Copy]

Copied!

ประเด็นสำคัญที่แตกต่างการจัดประเภทข้อความจากประเภทงานอื่น ๆ กล่าวในหนังสือเล่มนี้ มีความเป็นไปได้ของการจัดประเภทหลาย
ถึงตอนนี้ เราได้ถือว่า มีชุดของประเภทที่นั่น และว่า วัตถุแต่ละต้องเหมาะสมย่อมเป็นหนึ่งและเดียวนี้
ข้อความประเภทค่อนข้างแตกต่างกันได้ โดยทั่วไป เราอาจมีประเภท N

ยา ธุรกิจ การเงิน ประวัติศาสตร์ Biographical จัดการ และ
ศึกษาและเป็นไปได้อย่างสมบูรณ์แบบสำหรับเอกสารให้พอดีในหลายประเภทเหล่านี้ อาจแม้นั้นทั้งหมด หรืออาจจะไม่ได้
แทนขยายคำนิยามของประเภทที่ใช้ถึงตอนนี้เราต้อง
คิดของข้อความการจัดประเภทงานเป็นงานประเภทแยกเลขฐานสอง N,
เช่น — เอกสารเกี่ยวกับยา ใช่/ไม่ใช่ฉัน - เป็นเอกสารที่เกี่ยวกับธุรกิจหรือไม่ ใช่/ไม่ใช่ซึ่งเป็นเอกสารเกี่ยวกับการเงิน ใช่/ไม่เรื่อย ๆ จำเป็นต้องดำเนินการแยก classilication N เพิ่มมากเวลาที่เกี่ยวข้องสำหรับแบบฟอร์มนี้จัดประเภท ซึ่งสำหรับการจัดประเภทเดียวคือมักจะ computationally แพง

15.2 แสดงข้อความเอกสารสำหรับข้อมูล
เหมือง
สำหรับมาตรฐาน ' งานเหมืองข้อมูลนำเสนอข้อมูลไปยังระบบเหมืองข้อมูลในมาตรฐานการอธิบายไว้ในบทที่ 1 หรือสิ่งที่คล้ายกัน มีจำนวนคงที่ของแอททริบิวต์ (หรือลักษณะการทำงาน) ที่ถูกเลือกก่อนมีการเก็บรวบรวมข้อมูล สำหรับข้อความ การทำเหมืองแร่ชุดข้อมูลมักประกอบเอกสาร
เองและลักษณะการทำงานแยกจากกัน เอกสารโดยอัตโนมัติ
ตามเนื้อหาก่อนที่จะใช้อัลกอริทึมการจัดประเภทการ มี
โดยทั่วไปจำนวนมากคุณสมบัติ ส่วนใหญ่ของพวกเขาเท่านั้น เกิดขึ้นน้อยมาก มีสัดส่วนที่สูงของเสียงดัง และไม่เกี่ยวข้อง
มีหลายวิธีซึ่งการแปลงเอกสารจากล้วน
ข้อความกับอินสแตนซ์ของแอตทริบิวต์ในชุดฝึกอบรมมีสามารถทำได้ อย่างที่เราอาจนับ tlie จำนวนครั้งที่ระบุไว้วลีเกิดขึ้น หรืออาจเป็นชุดของ t1v (j|||คำ Esecutivc หรือเราอาจนับ
การเกิดขึ้นของสอง หรือสามชุดอักขระ (knowm เป็น bigrams และ
trigrams ตามลำดับ) เพื่อวัตถุประสงค์ในบทนี้ เราจะ assame ที่แสดงเรื่องตามคำใช้ รู้จักกันเป็นตัวกระเป๋าของคำ

แทน มีการแสดงนี้ เอกสารจะถือว่าเป็น เพียงกลุ่มคำซึ่งเกิดขึ้นในที่ ลำดับของคำ,
ชุดที่เกิด การจัดโครงสร้าง เครื่องหมายวรรคตอนย่อหน้า และแน่นอน nieanings คำมีทั้งหมดละเว้น เอกสารเป็นเพียงคอลเลกชันของคำที่อยู่ในบางอำเภอใจสั่ง พูดตัวอักษร กัน

วิธีการเกิดขึ้นของ niany ครั้งละ หรือบางอื่น ๆ วัดจำนวนการ
ความสำคัญของแต่ละคำ
นั่นเราต้องเก็บเป็น 'ความสำคัญค่าสำหรับแต่ละคำในการ
ใช้อินสแตนซ์เดียวในชุดฝึกอบรม วิธีควรเราทำ ถ้ามีเอกสารให้ พูดคำอื่น 106 นอกจากนี้เราเพียงไม่สามารถใช้การแสดงกับแอตทริบิวต์ 106 (ละเว้นจัดประเภท) เอกสารอื่น ๆ ในชุดข้อมูลอาจใช้คำอื่น อาจทับซ้อนกับ 106 ในอินสแตนซ์ปัจจุบัน แต่ไม่จำเป็นต้องมีการ เอกสาร unseen ที่เราต้องการจัดประเภทอาจคำ
ที่ไม่ใช้ในการฝึก 4@fflSl(l] จะ
s'
n ชัดเจน — แต่มาก
ไม่ดีซึ่งวิธีจะปันส่วนเป็น i||g||เจ [||, ttribiites เท่าจำเป็นให้
คำทั้งหมดได้ที่ id| %ใช้]ไร้สาย
เอกสาร iinseen ได้ Unfortiinately ถ้า langiiage ของเอกสารที่เป็นภาษาอังกฤษ มีจำนวนคำได้ประมาณหนึ่งล้าน ซึ่งเป็นจำนวนมาก liopelessly ของ attribiites กับ iise
วิธีการดีกว่ามากจะจำกัด represciitation ถึงคำว่า occiir actiially ใน clociimeiits ฝึกอบรม Tills ยังมีหลาย thoiisands
(หรือมากกว่า) และเราจะดูวิธีของ r (
< lii (tiii
uiimber tliis ในส่วน 15.3 15.4 ด้านล่างได้ เราทำทั้งหมดคำ iiscd อัล lc
isl oiic r ป่วยเป็น, "พจนานุกรม * และ

จัดสรรตำแหน่งแอททริบิวต์หนึ่งในแต่ละแถวของการฝึกอบรมของเราตั้งแต่ละ ใบสั่งที่เราทำนี้เป็นกำหนด ดังนั้นเราสามารถคิดว่า มันเป็นตัวอักษร
กระเป๋าของคำแสดงความเป็นหนึ่งซ้ำซ้อนสูง มัน
มีแนวโน้มว่า สำหรับ iiiost เฉพาะเอกสารใด ๆ ของ.he แอตทริบิวต์ (เช่นคำ) ลักษณะจะไม่ปรากฏขึ้น ตัวอย่าง พจนานุกรมที่ใช้อาจมีคำ 10000
เอกสารเฉพาะอาจมีคำอื่นเพียง 200 ถ้าดังนั้น แสดงความเป็นอินสแตนซ์ในชุดฝึกอบรมจะมี attribiites 9,800 จาก 10000 ด้วยค่าศูนย์ ไม่เกิดขึ้น แสดง
ไม่ได้ใช้เช่นกัน
ถ้ามี จัดหลายประเภทมีอยู่สองทางสำหรับสร้างพจนานุกรมคำในชุดฝึกอบรม dociiments ใช้หนึ่งใดในพจนานุกรมจะมีขนาดใหญ่
ครั้งแรกเป็นวิธีเฉพาะพจนานุกรม เรามีรูปแบบพจนานุกรมแตกต่าง
สำหรับแต่ละประเภท ใช้เฉพาะคำที่ปรากฏใน dociiments ที่จัดเป็นประเภท ทำให้พจนานุกรมแต่ละจะเล็กค่าจำเป็นต้องสร้าง N ของพวกเขา มีประเภท Ar
วิธีที่สองคือการ สร้างพจนานุกรมที่ทั่วโลก
incliides ซึ่งทั้งหมด
คำว่า occiir ที่ oiice น้อยที่สุดใน dociiments แล้วใช้
การจัดในแต่ละประเภท N ConstriK'tin
-glol การ) พจนานุกรมอัลชัดเจนจะเร็วมากกว่าสร้าง Ar ถิ่นดิ๊กส-tioiiaries biit ที่การ

Being translated, please wait..

Results (Thai) 3:[Copy]

Copied!

ปัญหาสำคัญที่จำแนกความแตกต่างการแบ่ง ประเภท ข้อความจากงานการแบ่ง ประเภท อื่นๆที่กล่าวถึงในหนังสือเล่มนี้มีความเป็นไปได้ของการแบ่ง ประเภท หลายคน
อยู่ได้ถึงตอนนี้เรามีแนวโน้มว่าจะถูกตั้งค่าเป็นของ ประเภท ที่ดีเยี่ยมทั้งสองฝ่ายและที่วัตถุแต่ละตัวจะต้องได้เป็นหนึ่งเดียวและเพียงหนึ่งในนี้อย่างหลีกเลี่ยงไม่ได้ การแบ่ง ประเภท ข้อความ
มีความแตกต่างกันค่อนข้างมากโดยทั่วไปเราอาจมีหมวดหมู่ n                    

เช่นยารักษาโรคทางธุรกิจการเงินและการบริหารจัดการทางประวัติศาสตร์ประวัติโดยละเอียด
การศึกษาและเป็นไปได้อย่างสมบรูณ์แบบสำหรับเอกสารที่จะให้พอดีกับหลาย ประเภท นี้อาจเป็นไปได้แม้จะทั้งหมดของเขาหรืออาจเป็นไปได้ไม่มี
มากกว่าขยายคำนิยามของการแบ่ง ประเภท ใช้ได้ถึงตอนนี้เราต้องการ
ในการคิดว่าของงานการแบ่ง ประเภท ข้อความที่เป็นงานด้านการแบ่ง ประเภท ไบนารีแบบแยกพื้นที่ n
เช่น - เป็นเอกสารที่เกี่ยวกับยา ใช่/ไม่ใช่ I - คือเอกสารที่เกี่ยวกับธุรกิจหรือไม่? ใช่/ไม่ใช่ - เป็นเอกสารที่เกี่ยวกับการเงินหรือไม่? ใช่/ไม่ใช่ที่จะเป็นไปได้ ความต้องการที่จะทำงานแบบแยกพื้นที่ classilication n เพิ่มขึ้นมากในเวลาที่เกี่ยวข้องสำหรับแบบฟอร์มนี้ในการแบ่ง ประเภทซึ่งแม้ว่าจะเป็นที่หนึ่งเดียวการแบ่ง ประเภท เป็นปกติต้องมีราคาแพง.                    

15.2 แสดงข้อความเอกสารสำหรับข้อมูล

สำหรับมาตรฐานการทำเหมืองแร่ของข้อมูลการทำเหมืองแร่งานที่ได้รับการนำเสนอข้อมูลในการให้ข้อมูลการทำเหมืองแร่ระบบที่มาตรฐานอธิบายไว้ในบทที่ 1 ,หรือบางสิ่งบางอย่าง.มีหมายเลขที่กำหนดของแอตทริบิวต์(หรือคุณลักษณะ)ซึ่งถูกเลือกก่อนข้อมูลที่ถูกเก็บรวบรวม สำหรับการทำเหมืองแร่ข้อความ dataset ที่โดยปกติแล้วประกอบด้วยเอกสาร
ด้วยตนเองและคุณสมบัติที่จะถูกดึงจากเอกสารโดยอัตโนมัติ
ตามเนื้อหาของพวกเขาก่อนอัลกอริธึมการแบ่ง ประเภท ที่จะถูกนำมาใช้ มีสัญลักษณ์
โดยทั่วไปเป็นอย่างมากขนาดใหญ่จำนวนมากที่มีความโดดเด่นให้มากที่สุดเท่านั้นเกิดขึ้นแทบจะไม่มีสัดส่วนที่สูงที่มีความโดดเด่นด้วยมีเสียงดังและไม่เกี่ยวข้อง
มีหลายวิธีซึ่งในการแปลงเอกสารจากที่ราบ
ข้อความที่จะบางกรณีมีหมายเลขที่กำหนดของแอตทริบิวต์ในตั้งค่าการฝึกอบรมที่สามารถนำออกมา ตัวอย่างเช่นเราอาจจะนับจำนวน tlie ครั้งกลุ่มคำหรือวลีที่ระบุเกิดขึ้นหรืออาจจะมีการผสมผสานที่ลงตัวของ T 1 V (|||| J คำ esecutivcหรือเราอาจจะนับ
เกิดที่สองหรือสามค่าผสมตัวอักษร( knowm เป็น bigrams และ
trigrams ตามลำดับ) สำหรับวัตถุประสงค์ของบทนี้เราจะ assame ที่เป็นตัวแทนคำ - เรียบง่ายซึ่งจะใช้เป็นที่รู้จักกันเป็นกระเป๋า - ของ คำ                    

การเป็นตัวแทนที่พร้อมด้วยการแสดงเอกสารนี้ที่ได้รับการพิจารณาให้เป็นจะเป็นคอลเลคชั่นของคำที่เกิดขึ้นในที่อย่างน้อยหนึ่งครั้ง การสั่งซื้อที่มีคำใดคำหนึ่งที่
การรวมตัวกันที่เกิดขึ้นปรับปรุงโครงสร้างหนี้หรือวรรคและเครื่องหมายวรรคตอน nieanings ของหลักสูตรที่มีคำใดคำหนึ่งที่ได้รับทั้งหมดไม่สนใจ. เอกสารที่มีอยู่ที่คอลเลคชั่นของคำวางไว้ในการสั่งซื้อตาม อำเภอ ใจบางคนพูดว่าเรียงตามลำดับอักษรพร้อม ด้วย                    

จำนวนของวิธีการ niany ครั้งแต่ละคนเกิดขึ้นหรือมาตรการอื่นๆบางอย่างของสัญลักษณ์
ความสำคัญของคำแต่ละ.
การสันนิษฐานว่าเราไม่ต้องการจัดเก็บ''ความสำคัญความคุ้มค่าสำหรับแต่ละคำใน
เอกสารที่เป็นหนึ่งในชุดการฝึกอบรมที่ว่าเราจะทำได้หรือไม่? หากเอกสารที่มีคำว่า 106 แตกต่างกันเราไม่สามารถใช้งานการแสดงพร้อมด้วย 106 แอททริบิว(ไม่สนใจการแบ่ง ประเภท ) เอกสารอื่นที่อยู่ใน dataset ที่อาจใช้คำอื่นๆอาจจะเหลื่อมซ้อนกันพร้อมด้วย 106 ในตัวอย่างเช่นในปัจจุบันแต่ไม่จำเป็นต้องทำ เอกสารมองไม่เห็นว่าเราต้องการแบ่งแยกอาจมีคำว่า
ที่ไม่ได้ใช้ในการฝึกซ้อม 4 @ fflsl .( l ]จะ

N ' s เห็นได้ชัดแต่เป็นอย่างมากที่มีสัญลักษณ์
ไม่ดี - วิธีการจะทำการจัดสรรเป็น;ฉัน|||| G J [||, ttribiites เป็นมีความจำเป็นในการอนุญาตให้
สำหรับทุกคำที่เป็นไปได้อาจต้องใช้%| ID ]ไฟร์
ตามมาตรฐานเป็นไปได้ iinseen เอกสาร unfortiinately หาก langiiage ของเอกสารเป็น ภาษาอังกฤษ และตัวเลขของคำว่าเป็นไปได้คือประมาณหนึ่งล้านบาทซึ่งจะเป็น liopelessly ไม่ได้ผลจริงจำนวน attribiites เพื่อ iise .
การดีขึ้นมากคือการจำกัดการ represciitation เพื่อถ้อยคำที่ actiially occiir ใน clociimeiits การฝึกอบรมที่ ไถพลิกสามารถ thoiisands จำนวนมาก
(หรือมากกว่า)และเราจะดูที่วิธีของ R (
< lii ( tiii
tliis uiimber ในส่วน 15.3 และ 15.4 ด้านล่าง เราทุกคำ iiscd Al LC
ISL oiic - R ป่วยที่"พจนานุกรม* และ                    

แอตทริบิวต์จัดสรรตำแหน่งในแต่ละแถวของการฝึกอบรมของเราตั้งค่าสำหรับแต่ละคน การสั่งซื้อที่เราทำแบบนี้คือตาม อำเภอ ใจเราคิดว่าจะได้รับจากโรงแรมที่เรียงตามลำดับตัวอักษร
การเป็นตัวแทนถุงเก็บฝุ่นของคำที่ก่อความเสียหายโดยตรงเป็นหนึ่งสำรองเป็นอย่างมาก มัน
มีแนวโน้มว่าสำหรับ iiiost เอกสารเฉพาะใดๆของเขาแอตทริบิวต์/คุณสมบัติต่างๆ(เช่นคำ)จะไม่ปรากฏขึ้น ตัวอย่างเช่นพจนานุกรมที่ใช้อาจจะมี 10 , 000 คำ
แต่เอกสารเฉพาะที่อาจมีเพียง 200 คำอื่น หากเป็นเช่นนั้นการเป็นตัวแทนของตนว่าเป็นตัวอย่างที่อยู่ในกำหนดการฝึกอบรมจะมี 9,800 ออกจาก 10 , 000 attribiites พร้อมด้วยความคุ้มค่าเป็นศูนย์แสดงว่าไม่มีเหตุการณ์ที่เกิดซ้ำ
เช่นที่ไม่ได้ใช้
อยู่หากมีการแบ่ง ประเภท หลายคนมีสองความเป็นไปได้สำหรับสร้างพจนานุกรมที่มีคำใดคำหนึ่งสำหรับคอลเลคชั่นของ dociiments การฝึกอบรมใดหนึ่งจะใช้พจนานุกรมที่มีโอกาสที่จะมีขนาดใหญ่
ครั้งแรกที่เป็นวิธีการพจนานุกรมในท้องถิ่น เราเป็นพจนานุกรมที่แตกต่างกันสำหรับแต่ละหมวดหมู่
การใช้เฉพาะผู้ที่คำที่ปรากฏใน dociiments ได้รับการจำแนกให้เป็นที่อยู่ใน ประเภท นั้น โรงแรมแห่งนี้จะช่วยให้แต่ละพจนานุกรมให้มีขนาดเล็กมีที่ราคาของความต้องการในการก่อสร้าง N ของเขาที่มี ประเภท AR
วิธีการที่สองคือการสร้างพจนานุกรม
ตามมาตรฐานระดับโลกซึ่ง incliides คำ
ทั้งหมดที่ occiir อย่างน้อย oiice dociiments ในที่ใด โรงแรมแห่งนี้คือจากนั้นใช้
สำหรับการแบ่ง ประเภท เข้าไปใน ประเภท n ที่แต่ละห้อง constrik 'ดีบุก
- - glol )พจนานุกรม Al ที่จะเป็นอย่างมากที่ความเร็วที่มากเกินกว่าสร้าง AR ท้องถิ่น dic - tioiiaries . biit ที่                    
ได้อย่างชัดเจน

Being translated, please wait..

Other languages

The translation tool support: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Chinese, Chinese Traditional, Corsican, Croatian, Czech, Danish, Detect language, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Frisian, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Myanmar (Burmese), Nepali, Norwegian, Odia (Oriya), Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scots Gaelic, Serbian, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Tatar, Telugu, Thai, Turkish, Turkmen, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, Xhosa, Yiddish, Yoruba, Zulu, Language translation.