where v is the vocabulary size for a corpus of size n words, and k and β are parameters that vary for each collection.
This is sometimes referred to as Heaps’ law.
Typical values for k and β are often stated to be 10 ≤ k ≤ 100 and β ≈ 0.5.
Heaps’ law predicts that the number of new words will increase very rapidly when the corpus is small and will continue to increase indefinitely, but at a slower rate for larger corpora.
Figure 4.3 shows a plot of vocabulary growth for the AP89 collection compared to a graph of Heaps’ law with k = 62.95 and β = 0.455.
Clearly, Heaps’ law is a good fit. The parameter values are similar for many of the other TREC news collections.
As an example of the accuracy of this prediction, if the first 10,879,522 words of the AP89 collection are scanned, Heaps’ law predicts that the number of unique words will be 100,151, whereas the actual value is 100,024.
Predictions are much less accurate for small numbers of words (< 1,000).
Results (
Thai) 1:
[Copy]Copied!
ที่ v ขนาดคำศัพท์สำหรับ corpus คำขนาด n และ k และβมีพารามิเตอร์ที่แตกต่างสำหรับแต่ละชุดนี้บางครั้งเรียกว่ากองกฎหมายโดยทั่วไปค่า k และβมักแสดงเป็น 10 ≤ k ≤ 100 และβ≈ 0.5ของกองกฎหมายคาดการณ์ว่า จำนวนคำใหม่จะเพิ่มขึ้นอย่างรวดเร็วเมื่อ corpus มีขนาดเล็ก และจะเพิ่มขึ้นเรื่อย ๆ แต่ ในอัตราช้าลงสำหรับซีกใหญ่ รูปที่ 4.3 แสดงพล็อตเติบโตคำศัพท์สำหรับคอลเลกชัน AP89 เมื่อเทียบกับกราฟของกองกฎหมาย มี k = 62.95 และβ = 0.455ชัดเจน กฎหมายของกองกำลังพอดี ค่าพารามิเตอร์จะคล้ายหลายอื่น ๆ TREC ข่าวคอลเลกชัน เป็นตัวอย่างของความถูกต้องของการคาดการณ์นี้ ถ้าคำแรก 10,879,522 ของคอลเลกชัน AP89 ที่จะสแกน ของกองกฎหมายคาดการณ์ว่า จำนวนคำเฉพาะจะ 100,151, 100,024 เป็นค่าที่แท้จริง คาดคะเนถูกต้องมากน้อยสำหรับตัวเลขขนาดเล็กของคำ (< 1,000)
Being translated, please wait..
![](//wwwimg.ilovetranslation.com/pic/loading_3.gif?v=b9814dd30c1d7c59_8619)