Feeds
Real-time streams of documents
e.g., web feeds for news, blogs, video, radio, tv
RSS is common standard
RSS “reader” can provide new XML documents to search engine
Conversion
Convert variety of documents into a consistent text plus metadata format
e.g. HTML, XML, Word, PDF, etc. → XML
Convert text encoding for different languages
Using a Unicode standard like UTF-8
Document crawlers for enterprise and desktop search
Follow links and scan directories
Results (
Thai) 1:
[Copy]Copied!
ฟีด
ลำธารเวลาจริงของเอกสาร
เช่นเว็บฟีดข่าว, บล็อก, วิดีโอ, วิทยุ, ทีวี
RSS เป็นมาตรฐานทั่วไป RSS
"ผู้อ่าน" สามารถให้เอกสาร XML ใหม่ในการค้นหาเครื่องยนต์
แปลงแปลงความหลากหลายของเอกสารเป็น ข้อความที่สอดคล้องกันรวมทั้งรูปแบบ metadata
เช่น HTML, XML, คำ, PDF ฯลฯ → XML
แปลงการเข้ารหัสข้อความสำหรับภาษาที่แตกต่างกัน
ใช้มาตรฐาน Unicode เช่น UTF-8
รวบรวมข้อมูลเอกสารสำหรับองค์กรและค้นหาเดสก์ทอป
ติดตามการเชื่อมโยงและไดเรกทอรีสแกน
Being translated, please wait..
