Managing Highly Correlated Semi-Structured Data
Architectural Aspects of a Digital Archive
Alf-Christian Schering, Holger Meyer, and Andreas Heuer
Database Research Group
Department of Computer Science
University of Rostock, Germany
{acsg, hme, ah}@informatik.uni-rostock.de
ABSTRACT
XML techniques are well suited to describe, manage, store,
and exchange hierarchical, semi-structured data. Information
represented beyond hierarchical structures can still be
described and exchanged in XML format employing additional
concepts such as ID/IDREF or XLink. However, retrieval,
manipulation, and storage mechanisms are far away
from being the ideal solution for such data. Query languages
do not perform efficiently in these cases. Especially in scenarios,
such as the Digital Wossidlo Archive (WossiDiA), a
project dealing with a huge number of arbitrarily correlated
data units, XML query evaluation and retrieval techniques
face problems, such as intricate querying and bad efficiency.
At this point a solution to manage these data efficiently
needs to be devised. This paper introduces a first approach
which attempts to find such a solution for the WossiDiA
information system.
Categories and Subject Descriptors
H.2.3 [DATABASE MANAGEMENT]: Languages;
E.1 [DATA STRUCTURES]: Graphs and networks,
Trees; H.3.7 [INFORMATION STORAGE AND RETRIEVAL]:
Digital Libraries
General Terms
Design, Languages
1. INTRODUCTION
XML and its related techniques are well suited for describing,
storing, retrieving, exchanging, etc. - managing -
semi-structured, hierarchical information. There are many
scenarios which deal with this kind of information, hence
XML & Co. can provide appropriate solutions for these scenarios.
Since the XML data model is actually pretty simple,
XML gains more and more attention in the data management
community.
Permission to make digital or hard copies of all or part of this work for
personal or classroom use is granted without fee provided that copies are
not made or distributed for profit or commercial advantage and that copies
bear this notice and the full citation on the first page. To copy otherwise, to
republish, to post on servers or to redistribute to lists, requires prior specific
permission and/or a fee.
PIKM’07, November 9, 2007, Lisboa, Portugal.
Copyright 2007 ACM 978-1-59593-832-9/07/0011 ...$5.00.
Beyond trees
However, not all of the emerging data management applications
can be well-covered by basic XML techniques. There
are certain scenarios that cannot make use of pure XML.
Problems arise whenever something is desired that XML
cannot provide without further efforts. One of the major
shortcomings of pure XML is the lack of support for creating
arbitrary relations between data, beyond hierarchical
structures, e.g. creating a node with multiple parents, creating
nodes whose parents are equal to one of their children
or nodes which are their own parents. This leads to
a more general representation - graphs. As XML is an extensible
language, a bunch of additional mechanisms which
can be used in the context of XML have been devised to
overcome this particular shortcoming, including ID/IDREF,
key/keyref, XLink, and XPointer. These extensions make it
possible to burst open the contained hierarchical structure
of XML. The use of mechanisms such as ID/IDREF and
XLink solves the representation problem but leaves other
problems open, such as simple querying as well as efficient
query evaluation and retrieval. Simple querying is often sacrificed
when an existing query language is extended by another
one. Without further efforts internal access structures
of the host language processor are not designed to support
the structures of embedded languages as well.
Large numbers of highly interrelated data
Traversing data, arbitrarily interlinked by mechanisms, such
as ID/IDREF and XLink, might not be a big problem in
case of small numbers of nodes and short paths. If the algorithms
can be executed in memory an efficiency problem
is not likely to occur. But imagine large numbers of nodes
involved as well as long paths - that gets query evaluation
in trouble. Management of highly interlinked data in conjunction
with semi-structured mechanisms and formats such
as XML and its directly related techniques like query languages,
has not been a big issue in the past. As yet it has
not been thoroughly researched.
This paper introduces the ideas of an integrated approach
to design and implement an information system for the
WossiDiA project, which addresses the problems mentioned
above. Section 2 gives a brief overview about the Digital
Wossidlo Archive project WossiDiA. In Section 3 the state
of the art is outlined. The major challenges for the approach
to be coped with are described in Section 4.1. Section 4.2
introduces the actual approach including the information
system architecture. Finally, Section 5 gives a conclusion
101
and identifies the problems which have to be taken care of
within the next steps of the ongoing work.
Results (
Thai) 3:
[Copy]Copied!
การจัดการระดับสูงกึ่งโครงสร้างด้านสถาปัตยกรรมการจัดเก็บข้อมูล
ดิจิตอลอัลฟ์เชริง Holger เมเยอร์ , คริสเตียน , Heuer
ฐานข้อมูล Andreas กลุ่มแผนกวิจัยของมหาวิทยาลัย Rostock วิทยาศาสตร์
{ acsg คอมพิวเตอร์ , เยอรมัน , hme อา } @ informatik . Uni Amsterdam De
เทคนิคบทคัดย่อ XML เหมาะที่จะอธิบายจัดการร้าน
และแลกเปลี่ยนลำดับชั้นข้อมูลอย่างไรข้อมูล
แสดงเกินโครงสร้างลำดับชั้นยังคงเป็น
อธิบายและแลกเปลี่ยนในรูปแบบ XML โดยใช้แนวคิดเพิ่มเติม
เช่น ID / idref หรือ xlink . อย่างไรก็ตาม การดึง
การจัดการและกลไกกระเป๋าเป็นไกล
เป็นทางออกที่ดีสำหรับข้อมูลดังกล่าว ภาษาสอบถาม
ไม่ปฏิบัติงานอย่างมีประสิทธิภาพ ในกรณีเหล่านี้ โดยเฉพาะอย่างยิ่งในสถานการณ์
เช่น เก็บ wossidlo ดิจิตอล ( wossidia ) ,
โครงการจัดการกับตัวเลขขนาดใหญ่ของพลความสัมพันธ์
หน่วยข้อมูลการประเมินแบบสอบถาม XML และเทคนิคการสืบค้นข้อมูล
เผชิญปัญหา เช่น สอบถามที่ซับซ้อนและประสิทธิภาพไม่ดี .
ที่จุดนี้โซลูชั่นการจัดการข้อมูลเหล่านี้ได้อย่างมีประสิทธิภาพ
ต้องวางแผน กระดาษนี้จะแนะนำ
วิธีการแรกซึ่งพยายามที่จะหาโซลูชั่นสำหรับระบบข้อมูล wossidia
.
หมวดหมู่และหัวข้อใน
h.2.3 [ ระบบฐานข้อมูล ] : ภาษา ;
e.1 [ โครงสร้างข้อมูล ] : กราฟและเครือข่าย
ต้นไม้ ; h.3.7 [ สารสนเทศ ] :
เรื่องห้องสมุดดิจิตอลออกแบบทั่วไป , ภาษา
1 บทนำ
XML และเกี่ยวข้องกับเทคนิค เหมาะสำหรับการจัดเก็บการสืบค้น
, ,แลกเปลี่ยน ฯลฯ - -
วิธีการจัดการข้อมูลแบบลำดับชั้น . มีหลายสถานการณ์
ที่จัดการกับข้อมูลประเภทนี้จึง
XML & Co . สามารถให้โซลูชั่นที่เหมาะสมสำหรับสถานการณ์เหล่านี้ .
เนื่องจากข้อมูล XML แบบเป็นจริงง่ายสวย
XML ได้รับความสนใจมากขึ้นในการจัดการชุมชน
ข้อมูลอนุญาตให้สำเนาดิจิตอลหรือฮาร์ดดิสก์ทั้งหมดหรือบางส่วนของงานนี้
ใช้ส่วนตัวหรือเรียนจะได้รับโดยไม่เสียค่าธรรมเนียมให้เสมือน
ไม่ได้หรือจำหน่ายกำไรหรือประโยชน์เชิงพาณิชย์ และสำเนา
หมีแจ้งให้ทราบนี้และการอ้างอิงเต็มในหน้าแรก เพื่อคัดลอกหรือ
พิมพ์เพื่อโพสต์บนเซิร์ฟเวอร์หรือเพื่อแจกจ่ายไปยังรายการที่ต้องการที่เฉพาะเจาะจงก่อน
อนุญาตและ / หรือค่า
pikm 2550 พฤศจิกายน 9 , 2007 , ลิสบอน , โปรตุเกส 978-1-59593-832-9 ACM
ลิขสิทธิ์ 2007 / 07 / 0011 หลังต้นไม้ . . . . . . . $ 5.00 .
แต่ไม่ทั้งหมดสำหรับการจัดการข้อมูลการใช้งาน
ได้ครอบคลุมเทคนิค XML พื้นฐาน มีสถานการณ์บางอย่างที่ไม่สามารถ
จะให้ใช้บริสุทธิ์ XML .
ปัญหาเกิดขึ้นเมื่อสิ่งที่เป็นที่ต้องการที่ XML
ไม่สามารถให้ โดยไม่มีความพยายามต่อไป หนึ่งในข้อบกพร่องที่สำคัญ
บริสุทธิ์ XML เป็นขาดการสนับสนุนสำหรับการสร้าง ความสัมพันธ์ระหว่างข้อมูล
พล
, นอกเหนือจากโครงสร้างลำดับชั้น เช่น การสร้างปมกับพ่อแม่หลายสร้างโหนดที่พ่อแม่
เท่ากับหนึ่งในเด็กของพวกเขาหรือโหนดที่
เป็นพ่อแม่ของพวกเขาเอง นี้นำไปสู่การทั่วไปมากขึ้นแทน - กราฟเป็น XML เป็นภาษา Extensible
พวกเพิ่มเติมกลไกซึ่งสามารถใช้ในบริบทของ XML ได้ถูก devised
เอาชนะข้อบกพร่องนี้โดยเฉพาะรวมทั้ง ID / idref
/ keyref xlink , คีย์ , และ xpointer . นามสกุลเหล่านี้ทำให้มันเป็นไปได้ที่จะระเบิดเปิด
มีโครงสร้างลำดับชั้นของ XML การใช้กลไก เช่น รหัส /
idref และxlink แก้ปัญหา แต่ปัญหาอื่น ๆแทนใบ
เปิดเช่นง่าย สอบถาม รวมถึงการประเมินผลแบบสอบถามมีประสิทธิภาพ
และการดึง . สอบถามง่ายๆมักเสียสละ
เมื่อภาษาแบบสอบถามที่มีอยู่จะขยายอีก
. โดยไม่มีความพยายามเพิ่มเติมโครงสร้างการเข้าถึงภายใน
ของโฮสต์ภาษาประมวลผลไม่ได้ออกแบบมาเพื่อรองรับ
โครงสร้างของภาษาสมองกลฝังตัว เช่น ตัวเลขขนาดใหญ่ของข้อมูลที่สัมพันธ์กันสูง
traversing ข้อมูลโดยพลการเชื่อมโยงโดยกลไก เช่น
เป็น ID / idref และ xlink อาจไม่ใช่ปัญหาใหญ่ใน
กรณีตัวเลขขนาดเล็กของโหนดและเส้นทางที่สั้น ถ้าอัลกอริทึมที่สามารถดำเนินการในความทรงจำ
มีปัญหาประสิทธิภาพที่ไม่น่าจะเกิดขึ้น แต่คิดตัวเลขขนาดใหญ่ของโหนด
ที่เกี่ยวข้องรวมทั้งยาวเส้นทาง - ที่ได้รับ
การประเมินแบบสอบถามปัญหา การบริหารจัดการเชื่อมโยงข้อมูลสูงควบคู่กับแบบกึ่งโครงสร้าง กลไก และรูปแบบ เช่น
เป็น XML และเกี่ยวข้องโดยตรงเทคนิคเช่นแบบสอบถามภาษา
ยังไม่ได้เป็นปัญหาใหญ่ในอดีต เนื่องจากยังไม่ได้วิจัยอย่างละเอียดได้
.
กระดาษนี้แนะนำความคิดของการบูรณาการ
ออกแบบและพัฒนาระบบสารสนเทศสำหรับโครงการ wossidia
ซึ่งที่อยู่ปัญหาที่กล่าวถึงข้างต้น มาตรา 2 ให้ภาพรวมสั้น ๆเกี่ยวกับดิจิตอล
wossidlo โครงการถาวร wossidia . ในส่วนของ 3 รัฐ
ของศิลปะสามารถอธิบาย . ความท้าทายที่สำคัญสำหรับวิธีการที่จะรับมือกับ
อธิบายในส่วนของ 4.1 . ส่วน 4.2
แนะนำวิธีการที่แท้จริงรวมถึงข้อมูล
ระบบสถาปัตยกรรม ในที่สุด มาตรา 5 ให้ข้อสรุป
101 และระบุปัญหาที่ต้องได้รับการดูแล
ภายในขั้นตอนต่อไปของการทำงานอย่างต่อเนื่อง
Being translated, please wait..
