Figure 3.5 illustrates the basic id

Figure 3.5 illustrates the basic idea of clustering. Assume we have a data set with only two variables: age and weight. Such a data set could be obtained by projecting Table 3.1 onto the last two columns. The dots correspond to persons having a particular age and weight. Through a clustering technique like k-means, the three clusters shown on the right-hand side of Fig. 3.5 can be discovered. Ideally, the instances in one cluster are close to one another while being further away from instances in other clusters. Each of the clusters has a centroid denoted by a +. The centroid denotes the “center” of the cluster and can be computed by taking the average of the coordinates of the instances in the cluster. Note that Fig. 3.5 shows only two dimensions. This is a bit misleading as typically there will be many dimensions (e.g., the number of courses or products). However, the two dimensional view helps to understand the basic idea. Distance-based clustering algorithms like k-means and agglomerative hierarchical clustering assume a distance notion. The most common approach is to consider each instance to be an n-dimensional vector where n is the number of variables and then simply take the Euclidian distance. For this purpose, ordinal values but also binary values need to be made numeric, e.g., true = 1, false = 0, cum laude = 2, passed = 1, failed = 0. Note that scaling is important when defining a distance met- ric. For example, if one variable represents the distance in meters ranging from 10 to 1,000,000 while another variable represents some utilization factor ranging from 0.2 to 0.8, then the distance variable will dominate the utilization variable. Hence, some normalization is needed. Figure 3.6 shows the basic idea of k-means clustering. Here, we simplified things as much as possible, i.e., k = 2 and there are only 10 instances. The approach starts with a random initialization of two centroids denoted by the two + symbols. In Fig. 3.6(a), the centroids are randomly put onto the two dimensional space. Using the selected distance metric, all instances are assigned to the closest centroid. Here we use the standard Euclidian distance. All instances with an open dot are assigned to the centroid on the left whereas all the instances with a closed dot are assigned to the centroid on the right. Based on this assignment, we get two initial clusters.

0/5000

From: -

To: -

Results (Thai) 1: [Copy]

Copied!

รูปที่ 3.5 แสดงให้เห็นถึงความคิดพื้นฐานของคลัสเตอร์ สมมติว่า เรามีชุดข้อมูล ด้วยตัวแปรเพียงสอง: อายุและน้ำหนัก เช่นชุดข้อมูลอาจได้รับ โดยประเมินตาราง 3.1 ไปคอลัมน์ที่สองล่าสุด จุดตรงกับท่านใดอายุและน้ำหนัก ผ่านเทคนิคระบบคลัสเตอร์เช่น k หมายถึง คลัสเตอร์สามที่แสดงทางด้านขวามือของ Fig. 3.5 สามารถค้นพบ ดาว อินสแตนซ์ในคลัสเตอร์หนึ่งอยู่ใกล้กันก็เพิ่มเติมจากอินสแตนซ์ในคลัสเตอร์อื่น ๆ คลัสเตอร์มีเซนทรอยด์สามารถบุโดย + เซนทรอยด์จะหมายถึง "ศูนย์กลาง" ของคลัสเตอร์ และสามารถคำนวณ โดยการหาค่าเฉลี่ยพิกัดของอินสแตนซ์ในคลัสเตอร์ โปรดสังเกตว่า Fig. 3.5 แสดงเพียงสองมิติ นี้เป็นความเข้าใจผิดเล็กน้อยเป็นโดยทั่วไปจะมีหลายมิติ (เช่น หมายเลขผลิตภัณฑ์หรือหลักสูตร) อย่างไรก็ตาม 2 มิติดูช่วยให้เข้าใจแนวคิดพื้นฐาน ระยะทางตามระบบคลัสเตอร์อัลกอริทึมหมายถึง k และคลัสเตอร์ลำดับ agglomerative สมมติความห่าง วิธีทั่วไปจะพิจารณาแต่ละอย่างจะ มีเวกเตอร์ n มิติโดยที่ n คือ จำนวนตัวแปร และเพียงแค่ใช้ระยะ Euclidian สำหรับนี้วัตถุประสงค์ ค่าเลขลำดับ แต่ค่าไบนารีต้องทำตัวเลข เช่น จริง = 1, false = 0, cum laude = 2 ผ่าน = 1 ล้มเหลว = 0 หมายเหตุที่ มาตราส่วนเป็นสิ่งสำคัญเมื่อกำหนดเป็นระยะทางตรง-ric ตัวอย่าง ถ้าตัวแปรหนึ่งแทนระยะทางตั้งแต่ 10 ถึง 1000000 ในขณะที่ตัวแปรอื่นแทนบางตัวใช้ตั้งแต่ 0.2 ถึง 0.8 เมตร แล้วตัวแปรระยะจะครองตัวแปรการใช้ประโยชน์ ดังนั้น จะต้องฟื้นฟูบาง รูปที่ 3.6 แสดงแนวคิดพื้นฐานของคลัสเตอร์หมายถึง k ที่นี่ เราประยุกต์กิจกรรมมากที่สุด เช่น k = 2 เท่ามี 10 อย่าง วิธีการเริ่มต้น ด้วยการเริ่มต้นสอง centroids สามารถบุ โดยสอง + สัญลักษณ์สุ่ม ใน Fig. 3.6(a), centroids จะสุ่มใส่ลงในทั้งสองพื้นที่มิติ ใช้วัดระยะทางเลือก กำหนดให้ทั้งหมดกับเซนทรอยด์ใกล้เคียง ที่นี่เราใช้ระยะห่าง Euclidian มาตรฐาน อินสแตนซ์ทั้งหมดที่ มีการเปิดจุดจะกำหนดให้กับเซนทรอยด์ทางด้านซ้ายในขณะที่อินสแตนซ์ทั้งหมด มีจุดปิดกับเซนทรอยด์ทางด้านขวา ตามกำหนดนี้ เราได้สองคลัสเตอร์เริ่มต้น

Being translated, please wait..

Results (Thai) 2:[Copy]

Copied!

รูปที่ 3.5 แสดงให้เห็นถึงแนวคิดพื้นฐานของการจัดกลุ่ม สมมติว่าเรามีชุดข้อมูลที่มีเพียงสองตัวแปรอายุและน้ำหนัก ดังกล่าวเป็นชุดข้อมูลที่อาจจะได้รับโดยการฉายลงบนตารางที่ 3.1 ช่วงสองคอลัมน์ จุดสอดคล้องกับบุคคลที่มีวัยโดยเฉพาะอย่างยิ่งและน้ำหนัก ผ่านเทคนิคการจัดกลุ่มเช่น k หมายถึงทั้งสามกลุ่มที่แสดงอยู่ทางด้านขวามือของรูป 3.5 สามารถค้นพบ จะเป็นการดีที่กรณีกลุ่มหนึ่งอยู่ใกล้กับหนึ่งในขณะที่อีกเป็นห่างไกลจากกรณีในกลุ่มอื่น ๆ แต่ละกลุ่มมี centroid แสดงโดย + เซนทรอยด์หมายถึง "ศูนย์" ของกลุ่มและสามารถคำนวณได้โดยการใช้ค่าเฉลี่ยของพิกัดของอินสแตนซ์ในคลัสเตอร์ โปรดทราบว่ารูป 3.5 การแสดงเพียงสองมิติ นี้เป็นบิตทำให้เข้าใจผิดว่าเป็นโดยปกติจะมีหลายมิติ (เช่นจำนวนของหลักสูตรหรือผลิตภัณฑ์) อย่างไรก็ตามทั้งสองมุมมองมิติจะช่วยให้เข้าใจความคิดพื้นฐาน ระยะทางที่ใช้ขั้นตอนวิธีการจัดกลุ่มเช่น k หมายถึงการจัดกลุ่มและลำดับชั้น agglomerative ถือว่าความคิดระยะทาง วิธีการที่พบมากที่สุดคือการพิจารณาแต่ละกรณีจะเป็นเวกเตอร์ n มิติที่ n คือจำนวนของตัวแปรและจากนั้นก็จะใช้ระยะ Euclidian เพื่อจุดประสงค์นี้ค่าลำดับ แต่ยังค่าไบนารีจะต้องทำตัวเลขเช่นจริง = 1 เท็จ = 0 ระดับเกียรตินิยม = 2 = 1 ผ่านล้มเหลว = 0 โปรดสังเกตว่าการปรับเป็นสิ่งสำคัญเมื่อการกำหนดระยะ met- ริค ตัวอย่างเช่นถ้าตัวแปรหนึ่งที่แสดงให้เห็นถึงระยะทางเป็นเมตรตั้งแต่ 10 ถึง 1,000,000 ในขณะที่ตัวแปรอื่นแสดงให้เห็นถึงการใช้ปัจจัยบางส่วนตั้งแต่ 0.2-0.8 แล้วตัวแปรระยะทางที่จะครองการใช้ตัวแปร ดังนั้นการฟื้นฟูบางอย่างเป็นสิ่งจำเป็น รูปที่ 3.6 แสดงให้เห็นถึงความคิดพื้นฐานของ k หมายถึงการจัดกลุ่ม ที่นี่เราง่ายสิ่งที่มากที่สุดเท่าที่เป็นไปได้คือ k = 2 และมีเพียง 10 กรณี วิธีการเริ่มต้นด้วยการเริ่มต้นสุ่มสอง centroids แสดงโดยสองสัญลักษณ์ + ในรูป 3.6 (a) centroids จะใส่สุ่มบนพื้นที่สองมิติ โดยใช้ตัวชี้วัดระยะทางที่เลือกทุกกรณีได้รับมอบหมายให้เซนทรอยด์ที่ใกล้เคียงที่สุด ที่นี่เราใช้ระยะ Euclidian มาตรฐาน ทุกกรณีที่มีการเปิดจุดรับมอบหมายให้เซนทรอยด์ด้านซ้ายในขณะที่ทุกกรณีที่มีจุดปิดได้รับมอบหมายให้เซนทรอยด์ที่อยู่ด้านขวา ขึ้นอยู่กับงานนี้เราได้รับสองกลุ่มเริ่มต้น

Being translated, please wait..

Results (Thai) 3:[Copy]

Copied!

รูปที่ 3 แสดงให้เห็นถึงแนวคิดพื้นฐานของการจัดกลุ่ม . สมมติว่าเรามีชุดข้อมูลที่มีเพียง 2 ตัวแปร ได้แก่ อายุ และน้ำหนัก ชุดข้อมูลดังกล่าวอาจจะได้รับโดยการลงตาราง 3.1 เมื่อสองคอลัมน์ จุดสอดคล้องกับบุคคลที่มีอายุโดยเฉพาะและน้ำหนัก ผ่านเทคนิคการจัดกลุ่มเหมือน k-means สามกลุ่มที่แสดงบนด้านขวาของรูปที่ 3.5 สามารถค้นพบใจกลาง อินสแตนซ์ในกลุ่มใกล้กันในขณะที่อยู่ห่างจากอินสแตนซ์ในกลุ่มอื่น ๆ แต่ละกลุ่มมีเซนทรอยด์แสดงโดย . เซนทรอยด์หมายถึง " ศูนย์ " ของกลุ่ม และสามารถคำนวณโดยการเฉลี่ยของพิกัดของอินสแตนซ์ ในกลุ่ม โปรดทราบว่าภาพที่ 3.5 แสดงเพียงสองมิตินี้เป็นบิตทำให้เข้าใจผิดเป็นโดยทั่วไปจะมีหลายมิติ ( เช่น จำนวนของหลักสูตรหรือผลิตภัณฑ์ ) อย่างไรก็ตาม สองมิติมุมมองที่ช่วยให้เข้าใจแนวคิดพื้นฐาน ระยะทางจากการจัดกลุ่มขั้นตอนวิธีการจัดกลุ่มลำดับชั้นและชอบ k-means agglomerative ถือว่าไกลความเข้าใจวิธีที่พบมากที่สุดคือการพิจารณาแต่ละอินสแตนซ์เป็น n-dimensional เวกเตอร์โดยที่ n คือจำนวนตัวแปร และจากนั้นก็จะ euclidian ระยะทาง สำหรับวัตถุประสงค์นี้ ค่าอันดับ แต่ยังค่าไบนารีจำเป็นต้องมีตัวเลข เช่น จริงเท็จ = 0 = 1 , เกียรตินิยมอันดับ cum = 2 , ผ่าน = 1 , ล้มเหลว = 0 หมายเหตุ การสำคัญเมื่อกำหนดระยะห่างกัน ริค ตัวอย่างเช่นถ้าตัวแปรที่แสดงถึงระยะห่างเป็นเมตรตั้งแต่ 10 ถึง 1000000 ในขณะที่ตัวแปรอื่นเป็นบางการใช้ปัจจัยตั้งแต่ 0.2 ถึง 0.8 แล้วระยะทางตัวแปรจะครองการใช้ตัวแปร จึงมีการฟื้นฟูเป็นสิ่งจำเป็น รูปที่ 3.6 แสดงแนวคิดพื้นฐานของ k-means การจัดกลุ่ม . ที่นี่ เราประยุกต์สิ่งต่างๆให้มากที่สุด เช่นk = 2 และมีเพียง 10 กรณี วิธีการเริ่มต้นด้วยการเริ่มต้นแบบสุ่มสองจุดเซนทรอยด์แทน โดยสองสัญลักษณ์ ในรูปที่ 3.6 ( ) , จุดเซนทรอยด์จะสุ่มใส่ลงบนสองมิติอวกาศ การเลือกระยะเมตริกทุกกรณีได้รับมอบหมาย centroid ที่ใกล้ที่สุด ที่นี่เราใช้ระยะทาง euclidian มาตรฐานอินสแตนซ์ทั้งหมด มีจุดเปิดให้กับเซ็นทด้านซ้ายในขณะที่ทุกกรณีด้วย จุด ปิดที่ได้รับมอบหมายในเคมบริดจ์บนด้านขวา โดยงานนี้ เราได้รับสองเริ่มต้นกลุ่ม

Being translated, please wait..

Other languages

The translation tool support: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Chinese, Chinese Traditional, Corsican, Croatian, Czech, Danish, Detect language, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Frisian, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Myanmar (Burmese), Nepali, Norwegian, Odia (Oriya), Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scots Gaelic, Serbian, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Tatar, Telugu, Thai, Turkish, Turkmen, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, Xhosa, Yiddish, Yoruba, Zulu, Language translation.