Seminar Internet-Technologien
Digitale Bibliotheken
Heinz Dittmann
Zusammenfassung
Digitale Bibliotheken wurden anfangs entwickelt, um im wissenschaftlichen
Bereich einen schnellen Austausch von wissenschaftlichen Arbeiten
zu ermöglichen. Insbesondere sollte ein Zugriff auf entsprechende
Literatur vom Arbeitsplatz aus realisiert werden. Mit zunehmender
globaler Vernetzung der Universitäten
und kommerziellen Forschungseinrichtungen wächst auch der Bestand an
digitalisierten Dokumenten. Diese Informationsflut stellt zunehmend
ein Problem bei der Recherche nach Literatur dar. Herkömmliche
Suchmaschinen lösen das Problem nicht, da sie ohne einheitliche
Datenbasis seitens der Anbieter arbeiten müssen. Dieser Text stellt
anhand von zwei Beispielen grundlegende Techniken digitaler Bibliotheken
vor. Mit NCSTRL steht ein beliebig erweiterbares Publikationssystem
bereit, das hohe Effizenz und Qualität bei der Recherche bietet.
Mit MeDoc wird ein System vorgestellt, das außerdem eine kommerzielle
Nutzung digitaler Bibliotheken ermöglicht.
Inhaltsverzeichnis
1. Einleitung
Internet-basierte Publikationssysteme und digitale Bibliotheken
sind seit relativ kurzer Zeit zu einem neuen Forschungsgebiet
in der Informatik geworden. Das große Interesse begründet sich
auf ein gewaltiges Anwachsen an allen Arten von
Publikationen im Internet und der Notwendigkeit, einen schnellen,
selektiven Zugriff bereitzustellen.
Die Bereitstellung von Publikationen im Volltext und multimediale
Bibliotheken haben das Potential, den gesamten Publikationsprozeß
zu verändern, insbesondere in wissenschaftlichen und verwandten
Bereichen.
Eine digitale Bibliothek ist ein Informationssystem, das einen
Dokumentenbestand und die zugehörigen bibliographischen
Daten verwaltet. In der Regel handelt es sich bei digitalen
Bibliotheken um verteilte Systeme. Sie fassen an
unterschiedlichsten Standorten angebotene Dokumente unter einer
einheitlichen Benutzerschnittstelle zusammen und werden deshalb
auch als virtuelle Bibliotheken bezeichnet.
Dem Benutzer stellt sich eine digitale Bibliothek mit einer
graphischen Benutzeroberfläche -- gewöhnlich über HTML-Seiten und HTML-Formulare -- dar, über die er Suchanfragen formulieren kann. Es ist aber
in der Regel auch möglich, durch den gesamten Dokumentenbestand
zu navigieren. Handelt es sich bei den Dokumenten um frei verfügbare
Literatur, so wird im allgemeinen die Möglichkeit zum direkten
Download angeboten.
Wer sich wissenschaftliche Informationen im Internet besorgen
möchte, muß zuvor wissen, wer diese Informationen bereitstellt.
Bei Verwendung einer der vielen Suchmaschinen stellt man schnell
fest, daß das Ergebnis der Suchanfragen heutzutage aus einer
überbordenden Fülle an Informationen von Forschungseinrichtungen,
Universitäten und technischen Abteilungen von Unternehmen besteht.
Die präsentierten Referenzen enthalten, neben einer sehr
großen Redundanz (seitenweise Links auf denselben Server) auch
ein großes Fehlerpotential. Häufig werden Referenzen zu nicht mehr
existenten Seiten aufgeführt oder tatsächlich vorhandene
Informationen werden nicht erfaßt. Zur Literaturrecherche
sind daher andere Lösungen nötig, wie bspw. die Verwendung einer
verteilten Datenbank mit bibliographischen Daten. Im Abschnitt 2
wird ein System (NCSRTL) vorgestellt, das eine solche Technik
verwendet.
Immer mehr Institutionen bieten über Web-Server einen Zugang zu
wissenschaftlichen Informationen (Technical Reports).
Mit der Einrichtung von FTP-Servern war es relativ einfach,
Dokumente in einem bestimmten Dateiformat bereitzustellen.
Der Zugriff auf den Dokumentenbestand konnte per 'anonymous'-Angabe
für Namen und Paßwort völlig frei erfolgen oder bei Paßwortnutzung
nur einem ausgesuchten Kreis von Nutzern erlaubt sein.
Die Nutzung von FTP als Grundlage einer Bibliothek brachte aber
Probleme mit sich. Die Dokumente lagen als Dateien in einem
bestimmten Dateiformat vor. Über extra Dateien (Index) wurden
Inhaltsverzeichnisse realisiert, die zu jedem Dateinamen die
bibliographischen Angaben enthalten. Dabei
stand es jedem Anbieter frei, sowohl über Struktur
von Dateisystem und Indexdateien als auch über angebotene
Dateiformate zu entscheiden. Aus Nutzersicht wäre eine zentrale
Instanz wünschenswert, die eine überschaubare Benutzeroberfläche
mit Recherchemöglichkeit in allen angeschlossenen Institutionen
erlaubt. Diesem Wunsch kamen Indexerprogramme nach, die die
Struktur von Dateisystem und Index der registrierten FTP-Server
kennen und aus diesen Informationen einen zentralen Index generieren
und auf einer zentralen Web-Site anbieten. Eine andere und bessere
Strategie verwendet NCSTRL. Indem ein spezielles Protokoll verwendet
wird, über das eine Kommunikation zwischen Anbieter und zentralen
Servern stattfindet, wird eine beliebige Erweiterbarkeit des
bestehenden Systems möglich, ohne Änderungen an ihm vornehmen
zu müssen.
Neben der Suche nach bibliographischen Angaben, ist eine Volltextsuche
in Dokumenten sinnvoll. Durch Einführung eines Dokumentenmodells
lassen sich
Dokumente in ihre physikalische (Seiten) und logische Struktur
(Gliederung, Abschnitte, ...) zerlegen. NCSTRL liegt ein solches Modell
zugrunde, so daß der Nutzer neben den erweiterten Recherchemöglichkeiten,
die Dokumente direkt einsehen und durchblättern kann.
Kommerzielle Anbieter wie bspw. Buch- und Zeitschriftenverlage
sind daran interessiert, ihre Informationen gegen Gebühren den
Nutzern bereitzustellen. Dazu ist ein geeignetes Abrechnungssystem
erfolderlich, das die bei der Nutzung anfallenden Kosten den
Nutzern in Rechnung stellt. Damit geht einher, daß ein
Sicherheitskonzept dafür sorgt, daß Nutzern keine Kosten in
Rechnung gestellt bekommen, die sie nicht verursacht haben.
Im Rahmen des MeDoc-Projekts entstand ein System, das die
Bereitstellung kostenpflichtiger Literatur im Volltext
ermöglicht. Darüberhinaus besitzt es ein Informationsvermittlungssystem,
das es gestattet, auch andere Systeme wie NCSTRL anzubinden.
Das MeDoc-System wird im Abschnitt 3 vorgestellt.
2. NCSTRL
Das NCSTRL-System (Networked Computer Science Technical Reference
Library, gesprochen 'ancestral') stellt eine weltweit verteilte
Sammlung von Technical Reports (wissenschaftliche Arbeiten
an Universitäten und ähnlichen Forschungseinrichtungen) dar.
NCSTRL bietet Wissenschaftlern einen zentralen Zugang zu
wissenschaftlichen Arbeiten der weltweit beteiligten
Institutionen (Zugang über einen lokalen http://pfirsich.offis.uni-oldenburg.de:1111/Dienst/htdocs/Welcome.html oder den zentralen Server http://ncstrl.org ).
2.1 Ziele
Das NCSTRL-System wurde unter folgender Zielsetzung entwickelt:
- Vernetzung einzelner Anbieter fachbezogener Informationen
- zentraler Zugang über eine einheitliche Benutzeroberfläche
- effiziente Literaturrecherche, Navigation durch den
Dokumentenbestand und Browsing durch Dokumente
- einfache Erweiterbarkeit um Funktionen und Anbieter
- weite Verbreitung (Attraktivität bzgl. Kosten und Aufwand)
2.2 Aufgabenteilung
NCSTRL basiert auf einer offenen Architektur von interagierenden
(physikalischen) Sites. Jede Site betreibt einen DL-Server (DL =
digital library) und unterstützt den Zugriff auf eine oder mehrere
(logische) authorities, also Institutionen, die Dokumente
zur Bibliothek beisteuern.
Jeder DL-Server hat mindestens drei Aufgaben, die klar voneinander
getrennt werden:
- Bereitstellung einer Dokumentverwaltung, die für Speicherung und
Zugriff auf Dokumente zuständig ist
- Bereitstellung einer Indexverwaltung, die eine verteilte Suche
ermöglicht
- Bereitstellen einer Benutzerschnittstelle
Zusätzlich stellen Meta-Server Informationen über die an NCSTRL beteiligten
Institutionen, und deren Index- und Dokumentverwaltungen bereit.
Die Unterteilung der Funktionalität der DL-Server in verschiedene Aufgaben
bietet eine bessere Skalierbarkeit und ermöglicht die spätere Integration
neuer Komponenten.
2.3 Kommunikation
Damit verschiedene NCSTRL-Sites miteinander kommunizieren können,
wird ein offenes Protokoll (Dienst-Protokoll) verwendet. Die
Verwendung eines einheitlichen offenen Protokolls ermöglicht
die Erweiterbarkeit des NCSTRL-Systems bspw. durch
weiterentwickelte Index- oder Suchverfahren. Außerdem besteht
die Möglichkeit andere digitale Bibliotheken an NCSTRL anzubinden.
Die Kommunikation zwischen verschiedenen NCSTRL-Sites ist in
Abbildung 1 dargestellt.
Abbildung 1: Kommunikation zwischen NCSTRL-Sites
Nutzer können auf die Benutzerschnittstelle (Dienst UI) einer
bestimmten Site durch Verwendung eines WWW-Browsers mittels
HTML-Forms zugreifen. Nutzeranfragen werden über das
HTTP-Protokoll und Common Gateway Interface durch den Browser bzw.
WWW-Server an die Benutzerschnittstelle weitergereicht.
Die Benutzerschnittstelle leitet die Anfrage parallel entweder
an die vom Nutzer zuvor selektierten Sites oder alle registrierten Sites
weiter. Jede dieser Sites führt eine Abfrage auf dem Index-Service
durch und sendet eine Liste mit zutreffenden Dokumentreferenzen zurück.
Die Gesamtliste aller Referenzen wird dem Nutzer auf seinem Browser
angezeigt. Wählt er nun ein Dokument aus, so wird eine Verbindung zum
entsprechenden Repository-Service hergestellt, der die
Meta-Daten des Dokuments zurückliefert. Die Meta-Daten bestehen
aus bibliographischen Angaben wie Autor, Titel, einer
Zusammenfassung des Dokuments und falls vorhanden,
einem Link auf die Online-Version des Dokuments.
Wie in Abbildung 1 ersichtlich, kommunizieren
die WWW-Clients per HTTP/CGI mit der Dienst-Benutzerschnittstelle.
Zur Kommunikation mit den jeweiligen Index- bzw. Repository-
Services wird das Dienst-Protokoll verwendet, welches in HTTP
eingebettet ist.
2.4 Regionen
Um mehr Effizienz bei Suchanfragen seitens der Nutzer zu erreichen,
muß die Antwortzeit der einzelnen Sites reduziert werden. Weiterhin
ist eine gewisse Fehlertoleranz und Stabilität des Systems gegenüber
Ausfall einzelner Komponenten oder Leitungsunterbrechungen
sicherzustellen. Diese Ziele können erreicht werden, indem das
weltweit verteilte Netzwerk in einzelne Regionen wie beispielsweise
Nordost-Amerika oder Zentraleuropa eingeteilt wird.
Bei der Partitionierung sollten sowohl Engpässe auf globalen
Datenleitungen als auch regionale Konzentrationen des Netzverkehrs
berücksichtigt werden.
Eine Region besteht aus einem regionalen Meta-Server (RMS),
mindestens einem Merged Index Server (MIS) und verschiedenen
Standard Sites (StS). Die Abbildung 2 stellt
zwei Regionen dar.
Abbildung 2: Architektur des NCSTRL-Systems
Regionale Meta Server (RMS) stellen Informationen über alle
an NCSTRL angeschlossenen Institutionen bereit. Sie erhalten
diese Informationen in regelmäßigen Abständen von einem
zentralen Master Meta Server (MMS), auf dem die Daten manuell
eingegeben werden müssen.
Anfragen an eine Site innerhalb einer Region werden direkt
an die betreffenden Sites geschickt, während
Anfragen an eine außerhalb liegende Site an einen Merged Index
Server (MIS) gesendet werden. Der MIS enthält alle Indexe außerhalb
der Region liegender Sites. Er sammelt periodisch neue oder
aktualisierte bib-Dateien (enthalten die bibliographischen
Daten der Dokumente) von verschiedenen NCSTRL-Sites und
führt damit einen Update seines Indexes aus.
Um die Systemsicherheit bei Leitungsunterbrechung oder
Ausfall eines Index-Services einer Site zu gewährleisten,
kann in jeder Region ein Backup-Server eingesetzt werden.
Dabei wird für jede Site innerhalb der Region
zusätzlich eine Kopie des lokalen Index-Services
in einem Backup-Server gehalten. Sollte der lokale Index-Service
einer Site nicht antworten bzw. ausfallen, dann wird
die Suchanfrage stattdessen auf der Kopie im Backup-Server
durchgeführt.
2.5 Dokumentenmodell
Ein großer Vorteil von NCSTRL gegenüber früheren DL-Systemen
ist, daß es ein flexibles und erweiterbares Dokumentenmodell
(vgl. Abbildung 3) unterstützt.
Abbildung 3: Dienst Dokumentenmodell
Das Modell hat drei wesentliche Eigenschaften
- eindeutige Dokumentennamen
- mehrere Dokumentenformate
- mehrere Dekompositionen eines Dokuments
NCSTRL verwendet zur Abstraktion von den verwendeten Dateinamen
der Dokumente logische Dokumentidentifikatoren, sogenannte
Handles. Mehrere Versionen eines Dokuments, sowohl in
unterschiedlichem Format als auch in unterschiedlichen
Dekompositionen, können einem Handle zugeordnet werden.
Damit ist es möglich, nicht nur ein Dokument als Ganzes,
sondern auch Teile davon, abzufragen. So können auf der
Nutzerseite Dokumente seitenweise durchgeblättert werden,
oder aus dem Inhaltverzeichnis heraus entsprechende Kapitel
oder Abschnitte angesprungen werden, ohne das Dokument
herunterladen zu müssen.
2.6 Standard- und Lite Sites
NCSTRL Standard-Sites bestehen aus einem Dienst-Server und
benötigen außer der Hardware einen gewissen Personalaufwand.
Um die Verwendung von NCSTRL auch den Institutionen
zu erleichtern, die sich solchen Aufwand nicht leisten
können oder wollen, wurde NCSTRL-Lite entwickelt. Die Abbildung 4
zeigt eine Region mit angeschlossenen Lite-Sites.
Abbildung 4: Region mit Lite-Sites
Eine Lite-Site (LiS) macht Dokumentformate und bibliographische
Angaben über gewöhnliche FTP-Server verfügbar. Ein zentraler
Dienst-Server (CS) verwaltet für die Institutionen der Lite-Sites
einen Index mit den zugehörigen bibliographischen Daten. Die
Dokumente bleiben auf den jeweiligen FTP-Servern. Jeder
Client der ein Dokument von einer Lite-Site anfordert,
kommuniziert, für den Benutzer transparent, direkt mit dem
FTP-Server.
Eine Lite-Site kann nicht die volle Funktionalität wie
Standard-Sites aufweisen. Bspw. ist das seitenweise Durchblättern
von Dokumenten und die Volltextsuche nicht möglich.
3 MeDoc-System
In einer digitalen Bibliothek stellen Produzenten oder Anbieter
potentiellen Konsumenten bestimmte Informationen zur Nutzung bereit.
Das MeDoc-System dient der Vermittlung zwischen Anbietern und
Nutzern von Informatik-spezifischen Fachinformationen. MeDoc entstand
im Rahmen eines deutschen Modellprojekts (vgl. BBEe98),
an dem neben anderen Universitäten auch das OFFIS
-- Oldenburger Forschungs- und Entwicklungsinstitut für
Informatik-Werkzeuge und Systeme -- in Oldenburg beteiligt war (Zugang
über http://medoc.informatik.tu-muenchen.de/deutsch/medoc.html).
3.1 Ziele
Das MeDoc-System wurde unter folgender Zielsetzung entwickelt:
- Aufbau eines System zur Speicherung und Verwaltung
kostenpflichtiger, elektronischer Volltextdokumente
- Entwicklung und Integration unterschiedlicher
Abrechnungsmodelle für die Nutzung kostenpflichtiger
Dokumente
- Sicherung der Übertragung kostenpflichtiger Informationen
gegenüber Verfälschung und Abhören
- Aufbau eines Informationsvermittlungssystems für die
Recherche in verteilten, heterogenen Informationsquellen
im Internet
- Bereitstellung einer Benutzeroberfläche für Volltextspeicher
und Informationsvermittlungssystem
3.2 Architektur
Das MeDoc-System besitzt eine Schichtenarchitektur, bestehend aus
Nutzeranbindungs-, Vermittlungs- und Anbieteranbindungsschicht.
Die Abbildung 5 stellt den Aufbau dieser Architektur
und die prinzipielle Nutzung des Systems dar.
Abbildung 5: MeDoc-Architektur
In der konkreten Realisierung des MeDoc-Systems werden die
einzelnen funktionalen Schichten durch technische Komponenten
wie Agenten und Broker repräsentiert. Diese Komponenten
bilden ein kommunizierendes System, wobei die Kommunikation
nach einem speziellen Protokoll erfolgt, dem MeDoc-Protokoll.
Resultate und Aufträge werden in einem globalen Schema formuliert,
dem MeDoc-Schema.
Für den Zugriff auf das MeDoc-System muß ein Nutzer registriert
sein. Es werden zwei Arten der Registration unterschieden:
zur Nutzung kostenloser Informationen kann sich der Nutzer
durch Angabe seiner E-Mail-Adresse und eines Paßwortes selbst
registrieren, bei Nutzung kostenpflichtiger Informationen
muß er sich zusätzlich durch seinen Nutzeragent-Administrator
registrieren lassen.
Die Anmeldung erfolgt über ein WWW-Formular durch Angabe von
Kennung und Paßwort. Der Nutzer bekommt bei korrekter Eingabe
einen Session-Key zugeordnet, der für einen bestimmten Zeitraum
gültig ist. In einem weiteren HTML-Formular kann der Nutzer
eine Suchanfrage eingeben. Dabei wird ihm eine
Anbieterliste angezeigt, die alle angeschlossenen Anbietersysteme
enthält. Der Nutzer hat die Möglichkeit entweder an alle
Anbieter seine Suchanfrage zu schicken, oder er kann eine
Vorauswahl der Anbieter vornehmen. Das Ergebnis seiner
Suchanfrage, wird dem Benutzer nach Anforderung präsentiert.
Das bedeutet, daß das System die Ergebnisse der Suchanfragen
so lange zwischenspeichern muß, bis sie von den Nutzern
abgerufen werden.
Alternativ kann eine Suchanfrage auch über einen Broker
abgewickelt werden. Beim Broker handelt es sich um eine
Systemkomponente, die über Informationen über alle angeschlossenen
Anbietersysteme und deren Dokumentenbestand verfügt.
Der Broker ermittelt zu einer Suchanfrage unter Berücksichtigung
dieser Informationen geeignete Anbieter und stellt eine Liste
mit Anbieterempfehlungen zu einer Anfrage bereit,
die vom Nutzer weiter bearbeitet werden kann.
3.3 Komponenten
- Nutzeragent
In der Nutzeranbindungsschicht sind Nutzeragenten für
eine bestimmte Gruppe von Nutzern bspw. eine Institution
zuständig und werden je nach Bedarf lokal installiert.
Sie realisieren eine Nutzer- und Gruppenverwaltung, die
bei der Benutzung kostenpflichtiger Dienste
im Zusammenhang mit einer Lizenzverwaltung Verwendung
findet.
- Broker
Ein Broker hat zwei wesentliche Aufgaben. Zum einen wählt
er unter den zur Verfügung stehenden Anbietern diejenigen aus,
die bei einer Anfrage des Nutzers überhaupt in Frage
kommen. Und zum anderen realisiert er eine optimierte
Anfrageverteilung. Dabei wird versucht, die Anbieter
in einer Rangfolge einzuordnen. Dies geschieht bspw.
durch Schätzungen auf Grundlage von statistischen Daten wie z. B.
Worthäufigkeiten. Eine optimierte Anfrageverteilung ergibt
sich dann, indem von ranghöheren Anbietern
mehr Nachweise bzw. Dokumentreferenzen angefordert werden.
Ziel ist es, von möglichst wenigen Anbietern möglichst viele
relevante Dokumentennachweise zu bekommen.
- Anbieteragent
Die Aufgaben der Anbieteragenten bestehen im wesentlichen darin,
die Ankopplung der verschiedenen Anbietersysteme an das
Medoc-System zu realisieren. Anbieteragenten werden jeweils
für genau ein
Anbietersystem installiert. Sie kapseln dessen Spezifika.
Jedes Anbietersystem verwendet in der Regel eine eigene
Anfragesprache und ein spezielles Format zur Versendung
von Anfrageergebnissen und Metadaten. Für jeden Typ eines
Anbietersystems existiert deshalb auch ein spezieller
Anbieteragent. Er nimmt die Transformation von der Medoc-
Anfragesprache in die spezifische Anfragesprache des
jeweiligen Anbietersystems vor. Auf der anderen Seite
werden die durch das Anbietersystem bereitgestellten
Anfrageergebnisse in das Medoc-Schema transformiert.
Weiterhin ermittelt der Anbieteragent Metadaten des
Anbietersystems und stellt sie dem Broker bereit.
3.4 Sicherheit
Im MeDoc-System ist die Recherche und Navigation kostenlos.
Das Durchblättern von kostenpflichtigen Dokumenten muß aber
unter geeigneten Sicherheitsmaßnahmen abgerechnet werden.
Dazu ist zunächst eine Authentifizierung des Nutzers
notwendig. Sie soll gewährleisten, daß der Rechnungsempfänger
auch wirklich der Verursacher der Kosten ist.
Die folgende Abbildung 6 stellt die
sicherheitsrelevanten Schnittstellen im MeDoc-System dar.
Abbildung 6: Sicherheitsrelevante Schnittstellen
Der Ablauf eines kostenpflichtigen Zugriffs sieht wie folgt aus:
- Der Nutzer (WWW-Client) authentifiziert sich beim
Nutzeragenten mit seiner Kennung und Paßwort. Er bekommt einen
Session-Key mit begrenzter Gültigkeitsdauer, der in die URL
zum Nutzeragenten codiert wird.
- Wenn der Nutzer nun eine Rechercheanfrage stellt, erhält
er eine Liste mit Dokumentenreferenzen. Mit der Anfrage wird
gleichzeitig die Kennung des Nutzers über den Anbieteragenten
an das Anbietersystem übergeben.
- Wählt der Nutzer eine kostenpflichtige Dokumentreferenz,
dann fragt ein spezieller Anbieteragent (Volltextspeicher) beim
Nutzeragenten nach einer Authentifizierung.
Die Kommunikation zwischen
Nutzer- und Anbieteragent wird mit SSL (Secure Socket Layer)
verschlüsselt.
- Kennt der Anbieteragent sowohl Kennung als auch Paßwort,
so wird festgestellt, ob der Nutzer eine Lizenz für das angeforderte
Dokument besitzt.
- Sind Authentifizierung und Lizenzüberprüfung erfolgreich,
so erhält der Nutzer eine temporäre Browse-URL und kann sich das
Dokument anzeigen lassen. Um eine Weitergabe von Browse-URL
an Dritte zu unterbinden, enthält auch die Browse-URL einen
Session-Key mit zeitlich begrenzter Gültigkeit.
3.5 Abrechnung kostenpflichtiger Dokumente
Produzenten, also Autoren, Verlage, Datenbankanbieter oder
Forschungsinstitute, liefern Informationen in geeigneten
digitalen Formaten. Wie in Abbildung 7 dargestellt,
vergeben sie Lizenzrechte an die Anbieter.
Abbildung 7: MeDoc-Geschäftsmodell
Die Anbieter bündeln das Angebot verschiedener Produzenten
und führen erforderliche Abrechnungen durch, indem sie
von Nutzern Nutzungsgebühren verlangen und den Produzenten
Tantieme zukommen lassen.
Entsprechend der Nutzungsgewohnheiten können verschiedene
Formen der Abrechnung gewählt werden. Lizenzmodelle sehen
vor, daß Dokumente für eine feste Gebühr abonniert werden
können. Bei nutzungsbasierter Abrechnung werden für jeden
Zugriff Gebühren in Rechnung gestellt.
In MeDoc werden verschiedene Lizenztypen unterschieden.
Einzellizenzen werden Einzelpersonen zugeordnet. Ganze
Gruppen von Nutzern können eine Gruppenlizenz erhalten.
Nutzerinstitutionen wie bspw. Universitäten können
eine Campuslizenz erhalten, die sich zur Gruppenlizenz
darin unterscheidet, daß die Größe der Nutzergruppe
nicht festgelegt ist. Gleitlizenzen werden von Mitglieder
einer Gruppe geteilt. Eine Nutzungsberechtigung wird einem
Gruppenmitglied für eine bestimmte Zeitspanne zugeordnet.
Sind alle Berechtigungen verbraucht, müssen weitere
Interessenten warten, bis wieder eine Berechtigung frei
ist.
Bei der Umsetzung der Lizenzmodelle kooperiert das
Anbietersystem mit dem Nutzeragenten. Dies minimiert
den Verwaltungsaufwand und den Nachrichtenverkehr,
da die Einzelnutzer dem Nutzeragenten bereits bekannt
sind. Die folgende Abbildung 8 zeigt den
Ablauf bei der Nutzung einer Lizenz.
Abbildung 8: Nutzung einer Lizenz
Beim Zugriffsversuch (1) eines Nutzers auf ein
lizenzpflichtiges Dokument stellt der Nutzeragent zuerst
fest, ob dem anfragenden Nutzer eine Lizenz zugeordnet
werden kann (2). Danach wird festgestellt unter welcher
Kennung das angeforderte Dokument beim Volltextspeicher
abgerufen werden kann (3). Über diese Kennung wird das
Dokument angefordert (4). Wenn dem Volltextspeicher
die Kennung bekannt ist (5) und eine entsprechende
gültige Lizenz vorliegt (6), wird das angeforderte
Dokument dem Nutzer freigeschaltet und angezeigt (7).
4 Zusammenfassung
Das NCSTRL-System hat sich aufgrund seiner offenen Architektur
gut verbreitet. Derzeit (Juni 1998) sind ca. 70 Institutionen
angeschlossen und halten zusammen ca. 22000 Dokumente in ihrem
Bestand. Da es für die Publikation von wissenschaftlichen
Texten entwickelt wurde, war das primäre Ziel, eine verteilte
digitale Bibliothek aufzubauen. Es sollte hinsichtlich Kosten
und Verwaltungsaufwand attraktiv genug sein, so daß sich möglichst
viele Institutionen als Anbieter beteiligen.
Für kommerzielle
Anbieter benötigt ein Publikationssystem zusätzlich Komponenten
zur Abrechnung von Nutzungsgebühren. Mit MeDoc steht ein Prototyp
bereit, der neben der Integration bestehender Systeme die Bereitstellung
von kostenpflichtigen Volltextdokumenten im Internet stimulieren soll.
Zur Zeit (Juni 1998) sind 55 Informatik-Bücher und 5 Zeitschriftenreihen
im Bestand, der auf Medoc-Volltextspeichern bei 5 verschiedenen kommerziellen
Anbietern verteilt ist. Weiterhin sind 6 andere Anbietersysteme
wie z. B. NCSTRL in das System integriert worden.
Bisher werden digitale Bibliotheken
hauptsächlich von Informatik-Institutionen betrieben. Eine Evaluation
von MeDoc durch andere Fachrichtungen (Physik und Soziologie) ist für
1998 geplant.
5 Weitere Projekte
5.1 ACM
Viele wichtige Informatik-Zeitschriften die von der ACM
-- Association for Computing Machinery, Vereinigung von Informatikern in den USA -- herausgegeben werden,
sind nun auch in einer digitalen Bibliothek
unter der Adresse ( www.acm.org )
verfügbar.
Die Digitale Bibliothek von ACM enthält ca. 90% aller
ACM Artikel, ab dem Erscheinungsjahr 1991. Darin sind
ca. 9000 Artikel in Volltext enthalten. Daneben
sind ca. 5000 Inhaltsverzeichnisse mit Literaturverweise
zu Zeitschriften ab 1985 enthalten.
Zu jedem Artikel werden folgende Daten angeboten:
- Bibliographische Angaben, wie Titel, Autorenname,
Zeitschriftentitel, Bandangabe, Ausgabejahr, und Seitennummer.
- Schlagwörter des ACM Klassifikationsschemas
- Zusammenfassungen, Abstracts
- Volltext im PDF-Format, lesbar mit dem Acrobat Reader ab
Version 3.0
Der Zugriff auf die Abstracts ist kostenlos.
Zwar ist der Zugriff auf die Volltexte nur Migliedern von ACM
gestattet (Mitgliedsbeitrag für Studenten: $38 pro Jahr), aber
die Navigation durch den Bestand sowie die Suche nach bibliographischen
Daten und Wörtern im Abstract sind frei.
5.2 Ariadne
Im Rahmen von MeDoc wurde mit dem WWW-Navigations- und Suchsystem Ariadne
(Zugang über http://ariadne.inf.fu-berlin.de:8000/) ein
Dienst eingerichtet, der sich von den bekannten WWW-Suchmaschinen und -Robotern
dadurch grundlegend unterscheidet, daß mit Hilfe von Ariadne Fachinformation
von hoher Qualität kostengünstig produziert und vermittelt werden kann. Die Nutzer
können und sollen zur Qualität in zweifacher Hinsicht beitragen: durch Eintragen
von Informationen in Ariadnes Datenbank und durch Überprüfen der Qualität der
in der Datenbank abgelegten Informationen. Im Gegensatz zu anderen Diensten und
Systemen, bietet Ariadne den Nutzern die Möglichkeit, Inhalt und Qualität des
Dienstes mitzubestimmen. Die Indexierung und Klassifizierung der Einträge sorgt
dafür, daß mit Ariadne ein Dienst entsteht, mit dem ein roter Faden zu
Informatik-Informationen im World Wide Web gelegt wird.
Die Nutzung von Ariadne und die Beiträge zu Ariadnes Datenbank durch die
Projektteilnehmer entsprechen aber in keiner Hinsicht den Erwartungen, so daß
eine Fortführung des Dienstes in der bestehenden Form nach Beendigung
des Projekts in Frage gestellt ist, da die unerwartet geringe Akzeptanz des
Systems im Projekt die Tragfähigkeit des Konzeptes in Frage stellt. Andererseits
überzeugt gerade das Konzept des Systems potentielle Anwender aus anderen
Fachgebieten, Ariadne für ihre Zwecke zu nutzen.
Konzepte internationaler Initiativen im Bereich digitale Bibliotheken und
Information Retrieval im WWW enthalten Funktionen, die mit Ariadne schon
realisiert sind und benutzt werden können. Das Konzept der ACM für eine digitale
Bibliothek enthält folgende Funktionalitäten von Ariadne: interaktiver
Profildienst, interaktive verteilte Qualitätskontrolle, Vermittlungsdienste.
Amerikanische Wissenschaftler propagieren die Entwicklung von Programmen
für 'area-specific database search' für das WWW. Das Konzept der Navigation
verbunden mit Suche in Ariadne entspricht diesen Vorstellungen.
5.3 Gutenberg
Einen mehr unterhaltsamen Zweck verfolgt das Gutenberg-Projekt
(www.gutenberg.net).
Gestartet wurde es 1971 am Illinois
Benedicte College. Damals setzte man sich als Ziel, bis zum
Jahre 2001 10.000 Bücher online verfügbar zu machen. Und zwar sollten
die 10.000 'wichtigsten' Bücher der Weltliteratur als
Volltextdateien über das Web erhältlich sein. Derzeit ist der
Bestand der Sammlung noch weit davon entfernt, das selbstgesteckte
Ziel zu erreichen. 1995 umfaßte die Sammlung rund 170 Bände,
deren Urheberrechte erloschen sind. Das Projekt basiert
auf der freiwilligen Mitarbeit von Netzteilnehmern,
die kostenlos das Scannen oder Abtippen der Werke übernehmen.
Es gibt auch einen deutschen Ableger dieses Projekts
(www.gutenberg.aol.de).
5.4 Digitale Bibliotheken auf CD-ROM
Immer mehr Zeitschriftenverlage gehen dazu über, die Jahresausgaben
ihrer Zeitschriften auf CD-ROM zu pressen. Die meisten solcher
CDs lassen es zu, Inhaltsangaben und bibliographische Daten
auf der Festplatte des Rechners zu einem Gesamtindex zusammenzufassen.
Damit wird eine Suche über bibliographische Daten, Schlagwörter
und Inhaltsverzeichnisse über die gesammten in Besitz befindlichen
CD-ROM möglich. Zur Volltextsuche ist allerdings die jeweilige
CD-ROM einzulegen.
Literatur
[BBEe98]
Andreas Barth, Michael Breu, Albert Endres, and Arnoud de Kemp (ed.).
Digital Libraries in Computer Science: The MeDoc Approach.
Springer Verlag, Berlin Heidelberg, 1998.
[BDG+98]
Dietrich Boles, Markus Dreger, Kai Großjohann, Cornelia Haber, Andreas
Kusserow, Stefan Lohrum, Dirk Menke, Jochen Meyer, Gerhard Möller, and
Ricarda Weber.
Das Medoc-System - Ein elektronischer Publikations- und
Nachweisdienst für die Informatik.
Technical Report, unknown, 1998.
[DL94]
James R. Davis and Carl Lagoze.
A protocol and server for a distributed digital technical report
library. Technical Report, Cornell University, 1994.
[DL96]
James R. Davis and Carl Lagoze.
The networked computer science technical report library.
Technical Report, IEEE, 1996.
IEEE Computer Special Issue on Building Large-scale Digital Library.