where v is the vocabulary size for

where v is the vocabulary size for a corpus of size n words, and k and β are parameters that vary for each collection.
This is sometimes referred to as Heaps’ law.
Typical values for k and β are often stated to be 10 ≤ k ≤ 100 and β ≈ 0.5.
Heaps’ law predicts that the number of new words will increase very rapidly when the corpus is small and will continue to increase indefinitely, but at a slower rate for larger corpora.
Figure 4.3 shows a plot of vocabulary growth for the AP89 collection compared to a graph of Heaps’ law with k = 62.95 and β = 0.455.
Clearly, Heaps’ law is a good fit. The parameter values are similar for many of the other TREC news collections.
As an example of the accuracy of this prediction, if the first 10,879,522 words of the AP89 collection are scanned, Heaps’ law predicts that the number of unique words will be 100,151, whereas the actual value is 100,024.
Predictions are much less accurate for small numbers of words (< 1,000).

0/5000

From: -

To: -

Results (Thai) 1: [Copy]

Copied!

ที่ v ขนาดคำศัพท์สำหรับ corpus คำขนาด n และ k และβมีพารามิเตอร์ที่แตกต่างสำหรับแต่ละชุดนี้บางครั้งเรียกว่ากองกฎหมายโดยทั่วไปค่า k และβมักแสดงเป็น 10 ≤ k ≤ 100 และβ≈ 0.5ของกองกฎหมายคาดการณ์ว่า จำนวนคำใหม่จะเพิ่มขึ้นอย่างรวดเร็วเมื่อ corpus มีขนาดเล็ก และจะเพิ่มขึ้นเรื่อย ๆ แต่ ในอัตราช้าลงสำหรับซีกใหญ่ รูปที่ 4.3 แสดงพล็อตเติบโตคำศัพท์สำหรับคอลเลกชัน AP89 เมื่อเทียบกับกราฟของกองกฎหมาย มี k = 62.95 และβ = 0.455ชัดเจน กฎหมายของกองกำลังพอดี ค่าพารามิเตอร์จะคล้ายหลายอื่น ๆ TREC ข่าวคอลเลกชัน เป็นตัวอย่างของความถูกต้องของการคาดการณ์นี้ ถ้าคำแรก 10,879,522 ของคอลเลกชัน AP89 ที่จะสแกน ของกองกฎหมายคาดการณ์ว่า จำนวนคำเฉพาะจะ 100,151, 100,024 เป็นค่าที่แท้จริง คาดคะเนถูกต้องมากน้อยสำหรับตัวเลขขนาดเล็กของคำ (< 1,000)

Being translated, please wait..

Results (Thai) 2:[Copy]

Copied!

ที่ V คือขนาดคำศัพท์สำหรับคลังข้อมูลของคำขนาด n และ K และβพารามิเตอร์ที่แตกต่างกันไปสำหรับแต่ละคอลเลกชัน.
นี้บางครั้งเรียกว่ากฎหมายกอง '.
ค่าทั่วไปสำหรับ K และβมักจะระบุเป็น 10 ≤ k ≤ 100 และเบต้า≈ 0.5.
กฎหมายกอง 'คาดการณ์ว่าจำนวนของคำศัพท์ใหม่จะเพิ่มขึ้นอย่างรวดเร็วเมื่อคอร์ปัสที่มีขนาดเล็กและจะยังคงเพิ่มขึ้นเรื่อย ๆ แต่ในอัตราที่ช้าลง corpora ขนาดใหญ่.
รูปที่ 4.3 แสดงให้เห็นว่าพล็อตของการเจริญเติบโตคำศัพท์ สำหรับคอลเลกชัน AP89 เมื่อเทียบกับกราฟของกอง 'การกฎหมายที่มี K = 62.95 และβ = 0.455.
เห็นได้ชัดว่ากอง' กฎหมายเป็นแบบที่ดี ค่าพารามิเตอร์ที่มีความคล้ายคลึงหลายอื่น ๆ คอลเลกชันข่าว TREC.
เป็นตัวอย่างของความถูกต้องของคำทำนายนี้ด้วยถ้า 10,879,522 คำแรกของคอลเลกชัน AP89 จะสแกนกฎหมายกอง 'คาดการณ์ว่าจำนวนของคำที่ไม่ซ้ำกันจะ 100151, ในขณะที่มูลค่าที่แท้จริงคือ 100024.
คาดการณ์มีมากน้อยที่ถูกต้องสำหรับตัวเลขเล็ก ๆ ของคำ (<1,000 บาท)

Being translated, please wait..

Results (Thai) 3:[Copy]

Copied!

ที่ 5 ขนาดศัพท์สำหรับคลังข้อมูลขนาด n คำและ K และบีตาเป็นพารามิเตอร์ที่แตกต่างกันสำหรับแต่ละคอลเลกชันนี่คือบางครั้งเรียกว่ากฎหมายกอง "ค่าทั่วไปสำหรับ K และบีตามักระบุเป็น 10 ≤ K ≤ 100 และบีตา≈ 0.5กฎหมายกอง " คาดการณ์ว่าจำนวนคำใหม่จะเพิ่มขึ้นอย่างรวดเร็วเมื่อข้อมูลมีขนาดเล็กและจะยังคงเพิ่มขึ้นเรื่อยๆ แต่ในอัตราที่ช้าลงสำหรับคลังข้อมูลขนาดใหญ่รูปที่ 4.3 แสดงแปลงคำศัพท์การเจริญเติบโตสำหรับ ap89 คอลเลกชันเมื่อเทียบกับกราฟที่กองกฎหมายกับ K = = การทดสอบพบบีตาและติด .เห็นได้ชัดว่ากฎหมายกอง " อยู่พอดี ค่าพารามิเตอร์จะคล้ายกันในหลาย ๆ trec ข่าวคอลเลกชันเป็นตัวอย่างของความถูกต้องของการพยากรณ์นี้ ถ้า 10879522 คำแรกของ ap89 ชุดสแกน , กฎหมายกอง " คาดการณ์ว่าจำนวนคำที่ไม่ซ้ำกันจะ 100151 ส่วนมูลค่าที่แท้จริงคือ 100024 .คำทำนายจะถูกต้องมากน้อยสำหรับตัวเลขขนาดเล็กของคำ ( < 1 , 000 )

Being translated, please wait..

Other languages

The translation tool support: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bosnian, Bulgarian, Catalan, Cebuano, Chichewa, Chinese, Chinese Traditional, Corsican, Croatian, Czech, Danish, Detect language, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Frisian, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Korean, Kurdish (Kurmanji), Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Myanmar (Burmese), Nepali, Norwegian, Odia (Oriya), Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scots Gaelic, Serbian, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Tatar, Telugu, Thai, Turkish, Turkmen, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, Xhosa, Yiddish, Yoruba, Zulu, Language translation.