Informationssysteme

Projekt: GERHARD2 - German Harvest Automated Retrieval and Directory II

Bei der Realisierung von GERHARD und im laufenden Betrieb des Dienstes seit April 1998 entstanden eine Reihe von Ideen zur Verbesserung des Systems, die in einer zweiten Projektphase realisiert werden sollen. Dazu gehören ein effizienteres Sammeln der Dokumente mit einer qualitativen Auswahl, die Verbesserung der Klassifikation und die Verbesserung und Funktionserweiterung der Benutzung.


Mitarbeiter

Laufzeit

  • Beginn: 1.1.2001
Zum Seitenanfang

In dem Projektbericht der Phase I von GERHARD wurde als Fazit festgestellt:

GERHARD kann als erste und einzige Suchmaschine weltweit die gefundenen Daten automatisch nach Inhalt kategorisieren.

GERHARD hat ca. 1 Mio. Dokumente erfaßt und indexiert und 6,3 Mio. Zuordnungen dieser Dokumente zu Kategorien vorgenommen - eine Leistung, die mit herkömmlichen manuellen Kategorisierungsmethoden undenkbar wäre. Trotzdem gilt auch hier "Nobody is perfect".

GERHARD zeigt ein hohes Potential und vielversprechende Ansätze, muß aber doch in weiteren Forschungsansätzen verbessert und weiterentwickelt werden. Die Entwicklung automatischer Klassifikationsverfahren in realistischer Anwendung im Internet hat gerade erst begonnnen.

Diese Feststellungen von anerkannten Experten können aus den Erfahrungen während der ersten Projektphase von GERHARD bestätigt werden. Bei der Realisierung von GERHARD und im laufenden Betrieb des Dienstes seit April 1998 entstanden eine Reihe von Ideen zur Verbesserung des Systems, die in einer zweiten Projektphase realisiert werden sollen.

So ergeben sich im einzelnen für die verschiedenen Funktionalitäten des GERHARD-Systems folgende Verbesserungsziele:

  • Effizienteres Sammeln und qualitative Auswahl der Dokumente: Ausgehend von einer Liste von Startadressen und Bereichen des WWW werden die Dokumente von einem Roboter gesammelt. Dieses Verfahren soll effizienter gestaltet werden, indem Aktualisierungs- und Zuwachsraten ermittelt und als Gewichtungswert für eine WWW-Quelle in den Sammelprozess einfließen (siehe Arbeitspaket S1). Automatische Verfahren zur Erkennung von Dokumententypen sollen verhindern, dass unwichtige Dokumente, die nicht sinnvoll inhaltlich erschlossen werden können, in GERHARD eingebracht werden.
  • Verbesserung der Klassifikation:
    • Dokumenttyperkennung: Die gesammelten Dokumente sollen mithilfe neuer Verfahren der Dokumenttyperkennung vorklassifiziert werden. Bisher werden alle gesammelten Dokumente mit denselben computerlinguistischen und statistischen Verfahren verarbeitet. Die Ergebnisse ließen sich verbessern, wenn diese Verfahren in Abhängigkeit von den Dokumenttypen (Homepages von Personen und Institutionen, Link-Sammlungen, Veranstaltungsverzeichnisse, Forschungsberichte, Volltextpublikationen, Grafikseiten) differenziert und unterschiedlich angewendet würden. Neben der Verbesserung der Klassifizierungsalgorithmen in Abhängigkeit vom Dokumenttyp können so auch bereits im Vorwege irrelevante Dokumente (Mensapläne etc.) nach definierten Kriterien aussortiert werden.
    • Feinere Analyse der UDK-Notationen Die UDK-Notationen kodieren komplexe Sachverhalte in kompakter Form. In GERHARD konnte jedoch nur ein Bruchteil dieser Informationen für die automatische Klassifikation verwendet werden. In GERHARD II soll eine feinere Analyse der Notationsstruktur vorgenommen und mehr Information für die Klassifikation nutzbar gemacht werden. Die zusätzliche Berücksichtigung z.B. zeitlicher und räumlicher Aspekte macht eine Verbesserung der linguistischen Verfahren notwendig.
    • Einsatz verbesserter Verfahren zur linguistischen Textanalyse: Aufbauend auf den Erfahrungen des ISIV im Rahmen des OSIRIS-Projekts sollen weitergehende computerlinguistische Verfahren zur Verbesserung der linguistischen Analyse in GERHARD implementiert werden. Hierzu gehört die Erkennung zeitlicher und räumlicher Präpositionalphrasen sowie die Zerlegung unbekannter Nominalkomposita in spezifische terminologisch bekannte Wörter. Entsprechend ergeben sich Änderungen für den Parser.
    • Erkennung der Dokumentensprache Bislang war es in GERHARD nicht möglich, z.B. einen überwiegend in Englisch geschriebenen Text von einem überwiegend in Deutsch geschriebenen Text zu unterscheiden, obwohl diese Information für die automatische Klassifikation hilfreich ist. In GERHARD II soll ein entsprechendes Verfahren hierfür entwickelt und implementiert werden.
    • Verbesserung des Klassifikationsverfahrens Mit der Dokumenttyp- und der Dokumentensprache-Erkennung sowie durch die feinere Analyse der Notationsstruktur werden in GERHARD II einige Neuerungen eingeführt, die auch das Klassifikationsverfahren im engeren Sinn (d.h. die Notationenanalyse und -selektion) betreffen. Die damit verbundene Neukonzeption des Verfahrens soll zu einer erheblichen Verbesserung führen.
  • Verbesserung und Funktionserweiterung der Benutzung
    • Entwicklung von Profildiensten Die überwiegend wissenschaftlichen Nutzer von GERHARD sollen die Möglichkeit erhalten, sie interessierende Klassen der UDK auszuwählen und dadurch ein individuelles Profil anzulegen. Dieses Profil erlaubt einen komfortableren Einstieg in die komplexe Struktur der UDK und kann über einen "Warenkorb" vom Nutzer selbst verwaltet werden und auf Wunsch auch als Alerting-Dienst genutzt werden.
    • Schaffung einer RDF-Schnittstelle Der Datenaustausch mit anderen Nachweisprojekten (Virtuelle Fachbibliotheken, DigiBib NRW ...), die mit GERHARD kooperieren und Erschließungsdaten übernehmen wollen, soll über eine Schnittstelle nach dem Resource Description Framework (RDF) erfolgen.
    • Verbesserung der Ranking-Algorithmen Das Ranking soll durch die Einbeziehung bibliometrischer Verfahren (Zitathäufigkeit) verbessert werden.
  • Zum Seitenanfang