At first, the system splits all of sentences, which are title of
articles in the expert publication database. It splits sentences to
sub sentences by punctuations.
Second, the system parses clauses from those split
sentences by Stanford NLP toolkits [11]. There are several
types in those clauses. However, there are two reasons that let
us choice two type clauses, “Noun+Noun” and “(Adj |
Noun)+Noun," in the system. One is that queries are some
terms of domain, and they are nouns. The other is they are
short terms of noun in general.
Third, the system makes candidates of extend queries by Cvalue
method. C-value is an Automatic Term Recognition
(ATR) measure. It suits the measure that the input is a large
corpus; output is terms of the domain, and domain is very
specific [9]. C-value method ranks all clauses base on the
frequency of clause and the times of nested clause [10]. The
equation is as (1).
In the equation (1), f(c) is the frequency of clause c.
f (nested) is the frequency of nested clause. |c| is the length of
clause c. Tc is the set of clauses that contains c. |Tc| means the
number of the set of clauses.
Fourth, the system extends query items according to the Cvalue
of candidate clauses. It sets the average of C-value as the
threshold. Then it picks out all of the clauses that the C-value is
greater than the average. Every selected clause must be
different. After this phase, the system can get a set of extended
queries { } 1 ,..., n Q = q q .
2) TF-IDF Calculation Phase
This phase uses TF-IDF (term frequency–inverse document
frequency) to generate the relative item vector 1,..., i i in W = w w
of
document di from the extended query set Q [2, 12]. The
workflow shows as Fig. 3.
Results (
Thai) 1:
[Copy]Copied!
ครั้งแรก ระบบแยกประโยค ซึ่งชื่อทั้งหมดของบทความในฐานข้อมูลสิ่งพิมพ์ผู้เชี่ยวชาญ มันแยกประโยคให้ประโยคย่อย โดย punctuationsสอง ระบบวิเคราะห์ประโยคจากการแบ่งนั้นประโยค โดย NLP สแตนฟอร์ดข่าว [11] มีหลายชนิดในประโยคเหล่านั้น อย่างไรก็ตาม มีสองประการที่ช่วยให้เราเลือกสองชนิดประโยค "คำนาม + คำนาม" และ "(Adj |คำนาม) + นาม, "ในระบบ คือว่า แบบสอบถามได้แก่เงื่อนไขของโดเมน และนาม อื่น ๆ คือจะมีสั้นข้อของคำนามทั่วไปที่สาม ระบบทำให้ผู้สมัครการขยายโดย Cvalueวิธีการ ค่า C คือ การจดจำ ระยะ อัตโนมัติ(เอทีอาร์) วัด เหมาะสำหรับการวัดว่าการป้อนข้อมูลขนาดใหญ่คอร์พัสคริ ผลเป็นเงื่อนไขของโดเมน และโดเมนมากเฉพาะ [9] วิธี C ค่าอันดับทุกประโยคพื้นฐานในการความถี่ของอนุประโยคและเวลาของประโยคซ้อน [10] ที่สมการเป็น (1)ในสมการ (1), f(c) เป็นความถี่ของอนุประโยค c(ซ้อน) f คือ ความถี่ของประโยคซ้อน |c| คือความยาวของc. ส่วน Tc เป็นชุดของประโยคที่ประกอบด้วย c. | Tc| หมายถึงการจำนวนชุดของประโยคสี่ ระบบขยายรายการแบบสอบถามตาม Cvalueของส่วนคำสั่งของผู้สมัคร มันตั้งค่าเฉลี่ยของค่า C เป็นการขีดจำกัดการ จากนั้น เลือกชนิดของประโยคที่มีค่า Cสูงกว่าค่าเฉลี่ย ทุกประโยคที่เลือกต้องแตกต่างกัน หลังจากขั้นตอนนี้ ระบบจะได้รับชุดขยายสอบถาม{} 1,..., n Q = q q2) ขั้นตอนการคำนวณ TF-IDFขั้นตอนนี้ใช้ TF-IDF (ระยะความถี่ผกผันเอกสารความถี่) ในการสร้างเวกเตอร์สินค้าญาติ 1,..., ฉันฉันใน W = w wของQ [2, 12] di เอกสารจากการสอบถามเพิ่มเติมได้ ที่ลำดับงานที่แสดงเป็น Fig. 3
Being translated, please wait..
Results (
Thai) 2:
[Copy]Copied!
ตอนแรกระบบแยกทั้งหมดของประโยคซึ่งเป็นชื่อของบทความที่ตีพิมพ์ในฐานข้อมูลผู้เชี่ยวชาญ
มันแยกประโยคประโยคย่อยโดยเครื่องหมายวรรคตอน. สองระบบแยกคำสั่งจากผู้แยกประโยคโดยชุดเครื่องมือสแตนฟอ NLP [11] มีหลายประเภทในข้อเหล่านั้น แต่มีสองเหตุผลที่ช่วยให้เราเลือกที่สองประโยคประเภท "คำนาม + คำนาม" และ "(Adj |. คำนาม) + คำนาม" ในระบบหนึ่งคือการที่คำสั่งมีบางแง่ของโดเมนและพวกเขาจะมีคำนาม. อื่น ๆ ที่พวกเขาเป็นระยะสั้นของคำนามทั่วไป. ประการที่สามระบบที่ทำให้ผู้สมัครของขยายคำสั่งโดย Cvalue วิธี C-ค่าเป็นระยะเวลารับรู้โดยอัตโนมัติ. (ATR) วัดมันเหมาะสมกับตัวชี้วัดที่มีการป้อนข้อมูลที่มีขนาดใหญ่. คลัง; เอาท์พุท เป็นแง่ของโดเมนและโดเมนเป็นอย่างมากโดยเฉพาะ[9]. วิธี C-ค่าอันดับทั้งหมดฐานข้อเกี่ยวกับความถี่ของคำสั่งและเวลาของคำสั่งที่ซ้อนกัน[10]. โดยสมการเป็น(1). ในสมการ ( 1), f (c) คือความถี่ของข้อค. f (ซ้อนกัน) เป็นความถี่ของคำสั่งที่ซ้อนกัน | c. | คือความยาวของข้อคTc คือชุดของคำสั่งที่มีค. |. Tc | หมายความว่าจำนวนชุดของข้อ. ประการที่สี่ระบบจะขยายรายการแบบสอบถามตาม Cvalue ของคำสั่งของผู้สมัคร. ได้กำหนดค่าเฉลี่ยของ C-ค่าเป็นที่เกณฑ์. จากนั้นก็หยิบออกทั้งหมดของคำสั่งที่ C-ค่ามากกว่าเฉลี่ย. ข้อที่เลือกทุกคนจะต้องแตกต่างกัน หลังจากขั้นตอนนี้ระบบจะได้รับชุดของการขยายคำสั่ง {} 1, ... , n Q = QQ. 2) การคำนวณ TF-IDF เฟสเฟสนี้ใช้TF-IDF (เอกสารความถี่ผกผันระยะความถี่) ในการสร้าง รายการญาติเวกเตอร์ 1, ... , ii ใน W = WW? ของดิเอกสารจากแบบสอบถามชุดขยาย Q [2, 12] เวิร์กโฟลว์แสดงให้เห็นเป็นรูป 3
Being translated, please wait..