Informationssysteme

PROJEKT: Semantisches Datenqualitätsmanagement unter Verwendung von Data Mining Technologien

Die Datenhaltung stellt für Unternehmungen eine wesentliche Komponente ihres Wissens dar, aufgrund dessen sowohl operative als auch strategische Entscheidungen getroffen werden. Im Laufe der Zeit kommt es in solchen Datenhaltungssystemen jedoch oft zu Fehlern, sei es durch falsche Dateneingaben, Inkompatibilitäten bei dem Zusammenführen/Trennen von  Datenhaltungssystemen, der Kommunikation zwischen verschiedenen dieser Systeme oder durch Fehler in den Anwendungslogiken. Das Auffinden und Beheben dieser Fehler verhindert Schäden und Reputationsverlust der Unternehmung.


Das "Data Quality Mining" nutzt maschinelle Lernalgorithmen und statistische Auswertungsverfahren aus dem Data Mining Kontext, um fehlerbehaftete Daten in Datenhaltungen aufzudecken. Um in diesem Prozess so wenig menschliche Entscheidungen wie möglich zu involvieren, wird eine Metaebene in Form einer Ontologie etabliert, die zum einen eine konzeptuelle Sicht auf die Daten (und damit von der konkreten technischen Implementierung der Datenhaltung abstrahiert) und zum anderen Metadatenannotation an die qualitätszusichernden Konzepte und Daten ermöglicht.  Das Konzept wird in einem Prototypen realisiert (Sasquatch) und anhand von Realdaten validiert.

Mitarbeiter