Jump label

Service navigation

Main navigation

You are here:

Main content

Proseminar "Grundlagen der Datenintegration"

Datenintegration ist ein wichtiger Erfolgsfaktor in heutigen Unternehmen, um ihre Geschäftsprozesse zu optimieren. Unternehmensdaten liegen häufig verteilt über mehrere Abteilungen vor und sind in verschiedensten Formen gespeichert von einfachen Textdokumenten bis hin zu strukturierteren Formaten wie HTML, XML oder relationalen Datenbanken. Die Prozesse innerhalb des Unternehmens erfordern jedoch zwangsläufig die Zusammenarbeit mehrerer Abteilungen und somit einen Datenaustauschs zwischen den Abteilungen. Kommerzielle Produkte wie SAP bieten dazu oft Lösungen mit einer zentralen Datenbank. Die Umstellung der IT Infrastruktur des Unternehmens auf eine solche Lösung beinhaltet viele der grundlegenden Herausforderungen der Datenintegration beispielsweise:
  • Wie soll die heterogene Landschaft an Schema Definitionen vereinheitlicht werden?
  • Wie werden die Daten aus bestehenden Quellen in eine zentrale Datenbank migriert?
  • Wie können Daten in heterogenen Repräsentationsformen integriert werden?
  • Wie werden Inkonsistenzen in den integrierten Datenbeständen bereinigt?
Datenintegration ist auch in vielen weiteren Anwendungsfeldern entscheidend wichtig zum Beispiel für Suchportale im Internet wie Reiseportale, die Informationen aus den Quellen mehrerer Anbieter extrahieren müssen. Das Proseminar soll eine erste Einführung in das Thema Datenintegration bieten, indem grundlegende Themen gemeinsam erarbeitet werden.  

 


Vorkenntnisse

Informationssysteme

 

Inhalt

Im dem Proseminar sollen ausgewählte Inhalte aus dem Lehrbuch

AnHai Doan, Alon Halevy, Zachary Ives:
Principles of data integration, Morgan Kaufmann 2012.

erarbeitet und präsentiert werden. Das Lehrbuch ist online über die Unibibliothek verfügbar.

Als Einstieg in das Thema wird empfohlen, sich das einleitende Kapitel 1 durchzulesen. Zu diesem Lehrbuch gibt es bereits einen Foliensatz als Begleitmaterial, der inhaltlich für eine entsprechende Vorlesung konzipiert wurde.
Die Folien können als zusätzliche Hilfestellung verwendet werden, um die jeweiligen Inhalte des Lehrbuchs zu erarbeiten und Beispiele für eine Präsentation dieses Inhalts zu sehen.

Das Ziel des eigenen Folienentwurfs ist es dagegen, die eigene Auseinandersetzung mit dem ausgewählten Themenbereich zu dokumentieren und das neu gewonnene Wissen den anderen zu vermitteln. Ausgangspunkt ist ein Kapitel des Lehrbuchs, aus dem Sie eine oder mehrere, für Sie interessante, leitende Fragestellungen herausarbeiten sollen (Forschungsfragen) und dazu jeweils eine der vorgestellten Lösungen auswählen und präsentieren. Die möglichen Themen samt zugehörigen Kapiteln sind:

  1. Schema Mappings, Kapitel 3.2:
    Unter anderem können mittels Schema Mappings Anfragen an ein ''Mediator Schema'', zum Beispiel ein Reiseportal, in Anfragen an Datenquellen, zum Beispiel Webseiten von Reiseanbietern, umformuliert werden.
  2. String Matching, Kapitel 4:
    Verschiedene Strings können sich auf dieselbe Entität beziehen, zum Beispiel ''David Smith'' und ''D. R. Smith'', und müssen zur Datenintegration als solche erkannt werden.
  3. Schema Matching, Kapitel 5:
    Zwischen verschiedenen Elementen zweier Schemas müssen Korrespondenzen erkannt werden, zum Beispiel welche Entitäten einander entsprechen.
  4. Von Ergebnissen des Schema Matching zu Schema Mappings, Kapitel 5.10:
    Korrespondierende Elemente zweier Schemas von Datenquellen müssen miteinander verknüpft werden mit Operationen wie Join, Union oder Aggregation.
  5. Auswertung von Anfragen, Kapitel 8.3:
    Eine Anfrage an ein ''Mediator Schema'' muss in Anfragen an verschiedene Datenquellen umformuliert und die Ergebnisse verknüpft werden unter verschiedenen Herausforderungen wie der Verteilung der Quellen.
  6. Extrahieren von Quelldaten, Kapitel 9:
    Manche Quelldaten, in der Regel Webseiten, liegen ohne explizite Schema Definition vor, so dass für eine solche Quelle ein sogenannter Wrapper entwickelt muss, der Daten gemäß einem Zielschema extrahiert.
  7. Migrieren von Quelldaten, Kapitel 10.2:
    Zur Datenanalyse wird häufig eine zentrale Datenbank, ein sogenanntes Datawarehouse, verwendet, in das Daten aus anderen Quellen migriert werden müssen, zum Beispiel kann das Management eines Unternehmens durch ein solches Warehouse Umsätze verschiedener Bereiche analysieren.
  8. Integration von XML Daten, Kapitel 11:
    Um Daten aus XML Quellen zu extrahieren gibt es zusätzliche Herausforderungen an die Auswertung von XPath Ausdrücken und bei der Definition von Schema Mappings, zum Beispiel die Verarbeitung von XML Datenströmen und die Verschachtelung von XML Elementen.
  9. Integration inkonsistenter Quelldaten, Kapitel 3.4:
    Das ''Mediator Schema'' für die integrierten Daten kann Integritätsbedingungen wie funktionale Abhängigkeiten festlegen, die wegen der Autonomie der Quellen erst bei der Datenintegration durchgesetzt werden können.
  10. Weitere Anwendungen:
    Die grundlegenden Methoden der Datenintegration können in anderen Bereichen genutzt werden zum Beispiel dem ''Semantic Web'' (Kapitel 12.3) und der ''Keyword Search'' (Kapitel 16).

 

Weitere Informationen

Aktuelles, Organisatorisches und Materialen finden Sie auf der Hauptseite des Proseminars.



Sub content

Contact

Dr. Cornelia Tadros