Feeds
Real-time streams of documents
e.g., web feeds for news, blogs, video, radio, tv
RSS is common standard
RSS “reader” can provide new XML documents to search engine
Conversion
Convert variety of documents into a consistent text plus metadata format
e.g. HTML, XML, Word, PDF, etc. → XML
Convert text encoding for different languages
Using a Unicode standard like UTF-8
Results (
Thai) 1:
[Copy]Copied!
ฟีด
ลำธารเวลาจริงของเอกสาร
เช่นเว็บฟีดข่าว, บล็อก, วิดีโอ, วิทยุ, ทีวี
RSS เป็นมาตรฐานทั่วไป RSS
"ผู้อ่าน" สามารถให้เอกสาร XML ใหม่ในการค้นหาเครื่องยนต์
แปลงแปลงความหลากหลายของเอกสารเป็น ข้อความที่สอดคล้องกันรวมทั้งรูปแบบ metadata
เช่น HTML, XML, คำ, PDF ฯลฯ → XML
แปลงการเข้ารหัสข้อความสำหรับภาษาที่แตกต่างกัน
ใช้มาตรฐาน Unicode เช่น UTF-8
Being translated, please wait..
