Informationsrecherche im Internet

Seminar Internettechnologien

Maik Höft

2.7.1998


Zusammenfassung

In der folgenden Ausarbeitung des Vortrages ‘Informationsrecherche im Internet’ werden verschiedene Suchhilfen und -methoden vorgestellt, die das Auffinden eines Dokumentes oder allgemein einer Information im Internet erleichtern. Um dem Leser einen Überblick über die Vielfalt dieser Unterstützungsmöglichkeiten zu vermitteln, werden keine konkreten Suchhilfen tiefergehend behandelt, sondern vielmehr charakteristische Eigenschaften verschiedener Suchhilfen hervorgehoben und ihre Eignung für das Auffinden einer bestimmten Information diskutiert. Hierbei werden zuerst Kataloge, Suchmaschinen und Meta-Suchmaschinen beschrieben, die bei einer spontanen Informationssuche häufig zum Ziel führen und wohl zu den populärsten Hilfsmitteln auf diesem Gebiet zählen. Auf diese drei Arten von Suchhilfe beziehen sich dann auch die darauf folgenden Recherchestrategien. Annähernd so beliebt bei der Recherche im Internet nach Informationen, aber mit dem Ziel einer Informationsbeschaffung über einen längeren Zeitraum, sind die Newsgroups und die Mailinglisten. Als Ergänzung werden dann noch der WAIS-Datenbankverbund und kommerzielle Dienste, wie kostenbehaftete Datenbanken, vorgestellt. Abschließend folgt ein Ausblick in die Zukunft der ‘Informationsrecherche im Internet’.


Inhaltsverzeichnis

1 Motivation
2 Kurzfristige Informationssuche
    2.1 Kataloge
    2.2 Suchmaschinen
    2.3 Meta-Suchmaschinen
    2.4 Wann benutzt man Suchmaschinen, wann Kataloge ?
3 Recherchestrategien
    3.1 Vorüberlegungen
    3.2 Internetressourcen finden über den URL
    3.3 Wahl des richtigen Suchbegriffes
    3.4 Differenzierte Abfragemöglichkeiten
    3.5 Einschränkung auf Dokumentattribute
    3.6 Umlaute, Sonderzeichen, Kurzworte, Groß-/Kleinschreibung
    3.7 Konkretes Beispiel für Suchanfragen bei Alta Vista
4 Newsgroups
5 Mailinglisten
6 WAIS-Datenbankverbund
7 Kommerzielle Dienste
8 Zukunft
9 Die wichtigsten URLs auf einen Blick
10 Literatur


1 Motivation

Im Internet finden sich zu fast jedem erdenklichen Themengebiet eine Vielzahl von Dokumenten in jeglicher Form. Die Wahrscheinlichkeit, daß es ein Dokument zu einem gesuchten Thema gibt, ist recht groß, doch wie findet man die berühmte Stecknadel im Heuhaufen?
Die Strukturen, auf denen das Internet basiert, sind nicht im Hinblick auf eine zielgerichtete Recherche entwickelt worden. Es gibt mehrere Punkte, die eine erfolgreiche Informationssuche erschweren, die aber auf der anderen Seite auch gewisse Vorteile haben, die das Internet gerade so beliebt machen. Zu nennen wäre da eine fehlende Organisation, d.h. daß keiner kontrolliert, wer, wo, was und wie veröffentlicht. Gäbe es eine solche Instanz, wären dort gestellte Suchanfragen schnell und umfassend zu beantworten. Durch die fehlende Strukturierung ergeben sich für den Suchenden wenig Möglichkeiten der Vorauswahl. Konkret bedeutet das, daß Texte, Grafiken, Bücher oder Datenbanken gleichberechtigt nebeneinander stehen und Informationen über solche Veröffentlichungen meist nicht für eine gezielte Suche zur Verfügung stehen. Zusätzlich wird die Suche noch durch die Dynamik des Internets erschwert, das sich tagtäglich verändert. Ob ein Dokument überhaupt zu finden ist, hängt häufig davon ab, ob sich jemand die Zeit genommen hat, die Informationen ins Internet zu stellen. Durch das Wissen um die passenden Hilfsmittel für die Suche im Internet und Recherchestrategien lassen sich diese Probleme jedoch in den Griff bekommen.


2 Kurzfristige Informationssuche

2.1 Kataloge

Kataloge fassen Internetressourcen nach Themengebieten zusammen und ordnen sie hierarchisch. Durch diese Organisation der erfaßten Dokumente wird es dem Suchenden ermöglicht, sich, ohne sich um irgendwelche Adressen oder Stichwörter kümmern zu müssen, vom Allgemeinen zum Speziellen Themengebiet zu bewegen. Startet man z.B. bei dem Thema Kultur kann man sich über Musik und Klassik den Werken von Mozart nähern. Häufig ist innerhalb der Kategorien noch die Eingabe eines Suchbegriffes möglich. Diese Suche beschränkt sich auf den Inhalt der momentanen Kategorie mit ihren Unterkategorien. Bekannte Kataloge sind Yahoo, WWW Virtual Library, Web.de oder DINO. Dadurch daß die Dokumente häufig durch eine eigene Redaktion in den Katalog aufgenommen werden, ist die inhaltliche Qualität der gefundenen Dokumente relativ hoch. Daraus resultieren aber auch die vergleichsweise wenigen Einträge, da Menschen die Dokumente erst lesen müssen, um sie dann einer Kategorie zuordnen zu können. Kataloge sind immer dann der geeignete Einstiegspunkt, wenn man eigentlich gar keine konkrete Information sucht, sondern wenn man sich einfach nur einen groben Überblick verschaffen will, was es in dem einen oder anderen Bereich für Internetangebote gibt.

Besondere Kataloge sind die sogenannten Besprechungsdienste. Die Dokumente werden wie bei den oben genannten Katalogen in Kategorien eingeteilt. Zusätzlich wird jedes erfaßte Dokument nach verschiedenen Kriterien bewertet, wie z.B. Inhalt, Aufbereitung, Wirkung oder ein Rezensionsdatum. Je nach Präferenz kann man sich dann die Dokumente einer Kategorie nach einem Kriterium sortieren lassen. Dienste dieser Art haben es sich zum Ziel gemacht, die besten Seiten zu erfassen. Der Besprechungsdienst Webtip hat sich vorgenommen, die besten 5% aller deutschen Seiten in den Katalog aufzunehmen. Das Problem liegt hier natürlich auf der Hand. Woher soll jemand anderes wissen, welches Dokument für mein Anliegen am besten geeignet ist, ein anderes Dokument könnte ja viel besser für meine Recherche sein. Es wird also nur ein Bruchteil des gesamten Informationsangebotes des Internets erfaßt. Allgemein kann man jedoch sagen, daß die dort gesammelten Daten qualitativ recht hochwertig sind; man kann dort gut nach anspruchsvollen Datenbanken z.B. für Musik oder Theater suchen. Weitere bekannte Vertreter der Besprechungsdienste sind Lycos Top 5% und Argus Clearinghouse.

2.2 Suchmaschinen

Suchmaschinen bieten die Möglichkeit, mit einer einzigen Abfrage große Teile des Internets zu durchsuchen. Man gibt hierbei einen oder mehrere Suchbegriffe ein und erhält daraufhin eine Liste von Verweisen auf Dokumente. Beispiele für Suchmaschinen sind Alta Vista, Excite, HotBot oder Lycos. Der große Vorteil der Suchmachinen ist der, daß große Teile des WWW erfaßt sind. Aber die Masse bringt hier auch viel Datenmüll mit sich, da die erfaßten Dokumente nicht einer inhaltlichen Kontrolle unterzogen werden. Da Suchmaschinen zu den am häufigsten frequentierten Diensten im Bereich Internetrecherche gehören, lohnt es sich, ihre Arbeitsweise etwas genauer zu untersuchen.Die Arbeitsfelder einer Suchmaschine können in drei Bereiche aufgeteilt werden:
Zuerst müssen die Dokumente gefunden werden. Dies geschieht durch sogenannte Robots oder Spiders, Programme die automatisch durch Nutzung der Hypertextlinks von einer Seite zur nächsten springen und dabei sukzessive die Dokumente erfassen. Um immer wieder neue Einstiegsseiten zu finden, werden auch spezielle Verzeichnisse durchsucht, wie z.B. die oben genannten Kataloge, oder es wird auf Servern nachgeschaut, die es extra für solche Neuankündigungen gibt. Zusätzlich bieten die meisten Suchmaschinen die Möglichkeit, daß man eigene Seiten persönlich anmelden kann. Dadurch kann man als Autor einer Seite sichergehen, daß die eigene Seite möglichst bald im Index einer Suchmaschine erscheint.
Die zweite Aufgabe einer Suchmaschine besteht in der Indexierung der ermittelten Dokumente. Indexierung heißt hier im einfachsten Fall, daß in einer Ja-Nein-Struktur festgehalten wird, ob die Wörter des Wörterverzeichnisses im Dokument enthalten sind. Die Suchmaschinen unterscheiden sich in der Indexierung voneinander. Einige indexieren den gesamten Text (wie z.B. Alta Vista), andere nur Teile, wie Überschrift, die kurze Beschreibung der Seite und eventuell einige Zeilen des Textes (Lycos). Probleme, die bei einer recht simplen Indexierung entstehen können, sollen nun einmal an einem Beispiel erläutert werden:

Geld Macht Bauern Kuchen Schrank Schränke
Geld allein macht glücklich + + - - - -
Bauernmöbel und Schränke - - + - - +
Kuchen backen für Singles - - - + - -
Die Macht der Könige - + - - - -
Gebäck im Schrank - - - - + -
Macht Kuchen dick? - - - + - -

Die ganz linke Spalte enthält die Dokumente, deren Name gleich ihrem Inhalt ist. In der obersten Zeile sind die Einträge im Wörterverzeichnis aufgelistet. Kommt nun ein Wort des Wörterverzeichnisses in dem Dokument vor, wird dies durch ein + markiert. Das Dokument ‘Geld allein macht glücklich’ enthält die Wörter Geld und Macht, vorausgesetzt hier wird nicht zwischen Groß- und Kleinschreibung unterschieden. Probleme können jetzt entstehen, wenn bei einer Suche das Stichwort Macht eingegeben wird und als Ergebnis Dokumente erwartet werden, die Macht in der Bedeutung Herrschaft enthalten. Unsere konstruierte Suchmaschine würde jedoch auch ‘Geld allein macht glücklich’ und ‘Macht Kuchen dick’ liefern. Weiter würde es eine Suche erheblich vereinfachen, wenn Plural und Singular eines Wortes innerhalb einer Spalte geführt werden, da jemand, der Schrank eingibt sicherlich auch das Dokument ‘Bauernmöbel und Schränke’ erhalten möchte. Ein weiterer großer Vorteil, wäre eine Verknüpfung von Wörtern, die inhaltlich miteinander verwandt sind, wie z.B. Kuchen und Gebäck. Diese Verbindung schaffen momentan nur die Kataloge, die durch eine Redaktion per Hand zusammengestellt werden.
Darüber hinaus werden noch sogenannte Metadaten gesammelt, die für die im nächsten Abschnitt beschriebene Sortierung der Treffer eine wesentliche Rolle spielen. Dazu gehören die Position eines Wortes, die Häufigkeit des Vorkommens eines Wortes, ob ein Wort ein Dateiname ist oder ob das Wort innerhalb eines Links auf eine andere Seite vorkommt.
Der letzte Arbeitsschritt einer Suchmaschine besteht in der Sortierung der gefundenen Dokumente nach ihrer Relevanz, d.h. die Dokumente, die am Besten zur Suchanfrage passen, stehen in der Ergebnisliste ganz oben. Eine solche Sortierung der Treffer nach ihrer Relevanz ist recht wichtig, da Suchanfragen häufig Treffer in Tausenderhöhen liefern und niemand die Zeit und Lust hat, alle Dokumente zu lesen. Es gibt bei der Sortierung keine Patentrezepte, jede Suchmaschine arbeitet anders. Trotzdem macht es Sinn, sich ein paar Ansätze (die natürlich auch miteinander kombiniert werden können) mal anzuschauen:

Bei der Vielzahl von existierenden Suchmaschinen ist es sicherlich notwendig, sich über deren Unterschiede und damit über eine Auswahl Gedanken zu machen. Leider ist es sehr schwer, zuverlässige Informationen über die Suchmaschinen zu erhalten, so daß dieses Thema nur unbefriedigend besprochen werden kann. Mögliche Kriterien für eine Charakterisierung einer Suchmaschine wären die Anzahl der erfaßten Dokumente, der Indexierungsumfang, die Funktionalität, die Relevanzberechnung und die Aktualisierung. Man kann sich also fragen, wieviele Dokumente verwaltet die eine oder andere Suchmaschine und in welchem Umfang sind sie indexiert. Eine sehr große Anzahl von erfaßten Dokumenten relativiert sich bei einer Indexierung allein vom Titel des Dokumentes. Weiter kann man eine Suchmaschine dahin gehend beschreiben und bewerten, inwiefern sie dem Benutzer eine ausreichende Funktionalität zur Verfügung stellt (Anfrage mittels Boolescher Operatoren), nach welchen Kriterien sie eine Sortierung der Treffer vornimmt oder wie schnell neue Seiten erfaßt werden und nicht mehr existierende auch gelöscht werden.

In der folgenden Tabelle sind einige Suchmaschinen aufgeführt, die anhand einiger Punkte verglichen werden. Die Daten kommen zum größten Teil aus der ‘kleinen Suchfibel’.

Anzahl der Dokumente Indexierungsumfang Funktionaltität Aktualität
Aladin 2.4 Mio Volltext Eingeschänkt -
Intersearch.de 3 Mio Volltext Umfangreich -
Fireball 4.5 Mio Volltext Umfangreich -
Alta Vista 125 Mio Volltext Umfangreich -
Hot Bot 54 Mio - Umfangreich -
Lycos 34 Mio Teiltext Eingeschränkt langsam in der Erfassung neuer Seiten

Die drei oberen Suchmaschinen haben nur deutschsprachige Seiten erfaßt und die drei unteren sind englischsprachige Suchmaschinen. Fireball ist unter den deutschen die größte und bietet umfangreiche Funktionalität. Im Vergleich dazu enthält Aladin nur ungefähr halb so viele Dokumente und bietet nur eine eingeschränkte Funktionalität derart, daß man entscheiden kann, ob ein Suchbegriff vorkommen muß oder alle. Unter den hier aufgeführten englischsprachigen Suchmaschinen ist Alta Vista von den erfaßten Seiten mit Abstand die größte. Auch ist im fortgeschrittenen Suchmodus eine sehr differenzierte Abfrage möglich. Bezüglich der Aktualität waren nur Daten zu Lycos zu erhalten und die sprechen auch nicht gerade für Lycos.

2.3 Meta-Suchmaschinen

Meta-Suchmaschinen sind Recherchetools, die mehrere einfache Suchmaschinen parallel abfragen und die Ergebnisse aufbereiten. Dies geschieht mittels eines Suchformulares. Dadurch, daß der Inhalt von mehreren Suchmaschinen abgefragt wird, erzielt man eine 3,5 mal bessere Abdeckung bei der Kombination der sechs größten Maschinen als bei der besten Einzelrecherche. Beispiele für Meta-Suchmaschinen sind Metacrawler, MetaGer und Highway61. Die Qualität einer Meta-Suchmaschine läßt sich anhand von 7 Bewertungskriterien bestimmen, die vor kurzem von einigen Fachleuten formuliert wurden und im Juli auf einer internationalen Tagung der ‘Internet Society’ in Genf vorgestellt werden sollen.

Die oben genannten Meta-Suchmaschinen erfüllen alle sieben Kriterien. Die Vorteile von Meta-Suchmaschinen liegen klar auf der Hand. Der Benutzer spart sich die Zeit und die Arbeit, in den einzelnen Suchmaschinen persönlich zu suchen. Da die Menge der erfaßten Dokumente enorm groß ist, eignen sich Meta-Suchdienste vor allem für Suchen, die wenige Treffer erwarten lassen. Auf der anderen Seite steigt natürlich auch der Anteil des Datenmülls am Gesamtergebnis.

2.4 Wann benutzt man Suchmaschinen, wann Kataloge ?

Wenn man diese beiden Suchhilfen nur anhand ihrer Größe vergleicht, könnte man zur der Meinung gelangen, daß Suchmaschinen für jede Art von Recherche besser geeignet sind als Kataloge. Dies ist aber nicht ganz richtig, da Kataloge und Suchmaschinen für ganz verschiedene Suchansätze gedacht sind.

Suchmaschinen sollten dann benutzt werden, wenn

Kataloge sind dagegen geeignet, wenn


3 Recherchestrategien

3.1 Vorüberlegungen

Um eine Suche erfolgreich zu führen, sollte man sich vorher ein paar Gedanken machen. Es kann sehr hilfreich sein zu wissen, wer ein Interesse daran haben könnte, die gesuchte Information zu veröffentlichen. Wenn man herausfinden möchte, wieviele Platten die Rolling Stones von ihrer neuen Platte bisher verkauft haben, könnte man auf der eigenen Seite der Stones nachlesen, bei deren Plattenfima, in Online-Plattenläden, die ihre Verkauszahlen auch gerne mal veröffentlichen oder man könnte auch auf den Homepages von Rolling Stones Fans nachschauen.

3.2 Internetressourcen finden über den URL

Häufig hilft das Wissen um den Aufbau eines URL schon weiter, um sich eine Vorstellung davon machen zu können, unter welcher Adresse ein gesuchtes Dokument stehen könnte. Anhand folgender Adresse der Universität Oldenburg soll kurz erläutert werden, was man aus dem URL erfahren kann.

http:// www.uni-oldenburg.de/ uni/geschichte.html
Das verwendete Protokoll Hostname des Servers, bestehend aus
Rechner- und Domainname
Der Pfad zur gesuchten Datei, bestehend aus
Verzeichnis- und Dateiname

Am Ende des Rechnernamens steht die sogenannte Top-Level Domain, hier also ‘de’. Eigentlich entspricht die Top-Level Domain dem Ländercode, hier steht ‘de’ für Deutschland. Allerdings sind darüber hinaus auch noch andere Kürzel möglich, wie z.B. com (Kommerzielle Anbieter), net (Netzanbieter und Provider) und org (nichtkommerzielle Angebote).
Vor der Top-Level Domain steht im Rechnernamen die Second-Level Domain. Diesen Namen kann sich der Anbieter selber aussuchen. Dabei versuchen die Anbieter natürlich, sich einen Namen zu sichern, der zu ihrem Angebot paßt. Microsoft hat sich als Second-Level Domain selbstverständlich ‘Microsoft’ sichern lassen. Sucht man also die Vertretung einer Firma im Internet, so sollte man folgende Adresse ausprobieren : http://www.Firmenname.Top-Level Domain. Die Top-Level Domain sollte bei deutschen Firmen, Organisationen oder Ähnlichem ‘de’ sein, bei ausländischen dementsprechend abgewandelt, bzw. es sollten auch ‘com’, ‘edu’, ‘gov’, ‘mil’, ‘net’ oder ‘org’ ausprobiert werden, wenn es angebracht erscheint. Eine Liste der Ländercodes findet man hier und eine Liste der Top-Level Domains findet man hier.
Hat man die Adresse einer Einrichtung gefunden, die der Gesuchten sehr ähnlich ist, sollte man die gefundene Adresse mit entsprechender Veränderung ausprobieren. Beispiel hierfür ist das Adressenformat der deutschen Universitäten. Die meisten haben die Form http://www.uni-Name_der_Uni.de. Hätte man nun die Adresse der Uni-Oldenburg gefunden, müßte man nur ‘Oldenburg’ durch ‘Trier’ ersetzen, um die Homepage der Uni Trier zu erhalten.
Umgekehrt kann man bei einer Suche mit einer Suchmaschine an der gefundenen URL schon ablesen, ob das gefundene Dokument die Anforderungen erfüllt. Sucht man beispielsweise Informationen zum Parteienprogramm der SPD und erhält bei einer Suchanfrage unter anderem die URLs http://www.spd.de/programm/inhalt.html und http:/www.uni-soundso.de/politik.spd.html, so erhält man unter der ersten Adresse ‘offizielle’ Informationen zur SPD und unter der zweiten eher Kommentare und Anmerkungen. Je nachdem woran man interessiert ist, kann hier schon eine Vorauswahl erfolgen.

3.3 Wahl des richtigen Suchbegriffes

Häufig muß man trotzdem eine Suchmaschine zu Rate ziehen, und dann kommt es darauf an, den richtigen Suchbegriff zu wählen. Deshalb an dieser Stelle erstmal eine Merkregel : benutzt man eine kleine Suchmaschine sollte man einen allgemeinen Suchbegriff wählen; benutzt man eine große Suchmaschine, sollte man einen speziellen Suchbegriff nehmen. Will man beispielsweise wissen, wer das Maskottchen der WM 98 entworfen hat, sollte man in einer großen Suchmaschine den Namen des Maskottchens, also footix, eingeben und bei einer kleinen Suchmaschine vielleicht eher WM98 oder ‘Maskottchen WM98’.

3.4 Differenzierte Abfragemöglichkeiten

Durch differenzierte Abfragen können die gesuchten Dokumente genauer und auf die eigenen Bedürfnisse besser angepaßt beschrieben werden. Die meisten Suchmaschinen bieten solche Abfragemöglichkeiten an. Im Folgenden sollen einige beschrieben und an Beispielen verdeutlicht werden.

3.5 Einschränkung auf Dokumentattribute

Bei vielen Suchmaschinen ist es möglich, die Suche auf bestimmte Attribute oder Felder einzuschränken. Problem bei den WWW Dokumenten ist, daß es wenig standardisierte Formen gibt, wie Autor, Herausgeber, Titel, Erstellungsdatum oder die Art des Dokumentes. Diese Informationen stecken zwar irgendwo in den Dokumenten, sind aber nicht so markiert, daß sie von den Suchmaschinen verarbeitet werden können. Die wenigen Elemente, die bisher bei Suchmaschinen verwendet werden können sind bei WWW Dokumenten Titel ( im HTML Code enthaltene Titelangabe, die in den <Title>-Tags steht), URL, Hostname, Dateityp, Erstellungsdatum, Hypertextlink und Zwischenüberschriften. Mit diesen Suchmöglichkeiten kann die Recherche sinnvoll eingeschränkt und unwichtige Dokumente ausgeschlossen werden. Bei Alta Vista erfolgt dies durch Eingabe eines Schlüsselwortes und eines Suchbegriffs bzw. einer Adresse, die durch einen Doppelpunkt voneinander getrennt sind. An dieser Stelle sollen ein paar praktische Anwendungen demonstriert werden, die die hier beschriebenen Suchmöglichkeiten veranschaulichen. Die verwendete Syntax orientiert sich an der von Alta Vista für eine ‘Advanced Query’.
Angenommen es werden Informationen zu Bertolt Brecht gesucht. Um nicht alle Dokumente zu finden, die Bertolt oder Brecht enthalten, sollte man die Suche auf den Titel beschränken, also ‘title:"Bertolt Brecht"’ und Bertolt Brecht als Phrase markieren. Um dann nur deutsche Dokumente zu finden, kann die Suche auf Rechner eingeschränkt werden, die in der Domainangabe ‘de’ (Deutschland) aufweisen, also ‘title:"Bertolt Brecht" AND host:de’.
Will man feststellen, wieviele und welche Verweise auf die eigene Homepage zeigen, weil man vielleicht bald eine neue Adresse hat und dies den anderen mitteilen möchte, damit sie ihre Verweise dementsprechend ändern können, dann kann man dieses mit ‘link:meine-Adresse’ herausfinden.
Hat man eventuell irgendwo eine URL gelesen und nur noch den Dateinamen behalten, dann kann man die Menge der in Frage kommenden Dokumente mit ‘url:Dateiname’ einschränken.
Möchte man Sound Dateien seiner Lieblingsband finden, kann dies mit ‘Lieblingsband AND link:wav’ erleichtert werden. Es werden als Ergebnis auf diese Anfrage nur Seiten aufgeführt, die einen Verweis auf Wave-Dateien enthalten und zudem irgendwo den Namen der Lieblingsband stehen haben.
Sucht man Server einer ganz bestimmten Firma, wie z.B. Bayer, dann werden durch folgende Suchanfrage ‘host:bayer’ alle Dokumente gefunden, in deren Hostname ‘bayer’ vorkommt.
Die Möglichkeiten der gezielten Suche sind hier recht groß und für eine effektive Suche sollte man sich die genaue Beschreibung der Suchsprache der verwendeten Suchmaschine einmal genauer anschauen.

3.6 Umlaute, Sonderzeichen, Kurzworte, Groß-/Kleinschreibung

Liefert eine Anfrage mal nicht die gewünschten Ergebnisse, sollte man noch mal überprüfen, ob folgende Formfehler eventuell dafür verantwortlich sind, die bei bestimten Suchmaschinen das Suchergebnis leider verfälschen:
Nicht jede Suchmaschine unterstützt die Suche nach Begriffen mit Umlauten. Das Problem bei Umlauten und anderen nationalen Sonderzeichen besteht darin, daß sie in HTML durch besondere Zeichenkombinationen dargestellt werden und daß ihre Kodierung nicht einheitlich über alle Hard- und Softwareplatten hinweg standardisiert ist. Die Umlaute werden also durch andere Zeichen ersetzt und führen so zu ungewollten Suchbegriffen. Folgende Suchmaschinen unterstützen die Suche nach Umlauten : Alta Vista, Hotbot, Opentext, Webcrawler, Yahoo, Infoseek, Ultraseek, DINO, WEB.de und Lycos (Deutschland). Folgende Suchmaschinen unterstützen keine Suche nach Begriffen, die Umlaute enthalten : Excite und Lycos (USA).
Sonderzeichen wie Bindestriche, Punkte oder Pluszeichen sind im Regelfall nicht suchbar. Sie werden von den Suchmaschinen ignoriert und wie Leerzeichen behandelt. Wenn beispielsweise in einem Text das Wort ‘Musik-Festival’ vorkommt, wird es so behandelt, als ob die Wörter ‘Musik’ und ‘Festival’ unverbunden nebeneinander gestanden hätten. Die einzige Möglichkeit, Wörter mit Sonderzeichen zu finden, ist die schon beschriebene Phrasensuche. Um bei dem Beispiel Musik-Festival zu bleiben, muß hier ‘"Musik-Festival"’ eingegeben werden, damit der Trennstrich bei der Suche berücksichtigt wird.
Auch Kurzworte mit weniger als drei Buchstaben werden im allgemeinen ignoriert, weil sie nicht aussagekräftig sind (z.B. in, an, er) und nur die Indexgröße der Suchmaschine unnötig vergrößern würden. Wie bei den oben beschriebenen Sonderzeichen sollte die Phrasensuche verwendet werden, wenn ein Kurzwort in das Suchergebnis miteinfließen soll. Beispiele hierfür sind ‘"Windows NT"’ oder ‘" PC Versand"’.
Als letzter Punkt den man bei der Suche beachten sollte, sei die Groß-/Kleinschreibung genannt. Bei vielen Suchmaschinen wird ein Suchbegriff, der große Buchstaben enthält als Aufforderung verstanden, nach dem Wort so zu suchen, wie es eingegeben wurde. Wird dagegen ein Suchbegriff nur in Kleinbuchstaben geschrieben, werden auch Dokumente gefunden, die das Wort mit Großbuchstaben geschrieben enthalten. Eine Anfrage in Kleinbuchstaben erhöht also die Anzahl der Treffer. Der Suchbegriff ‘student’ führt somit zu Dokumenten, die sowohl ‘student’ (engl.) als auch ‘Student’ (deutsch) enthalten, wohingegen ‘Student’ als Suchbegriff nur Dokumente erfassen würde, die das Wort genauso geschrieben enthalten. Bei einigen Suchmaschinen kann man aber extra einstellen, ob Groß-/Kleinschreibung berücksichtigt werden soll, oder ob alle Dokumente gefunden werden sollen, die das Wort unabhängig von der Groß-/Kleinschreibung enthalten.

7 Konkretes Beispiel für Suchanfragen bei Alta Vista

An dieser Stelle soll anhand einer kleinen Beispielrecherche aufgezeigt werden, wie sich die richtige Auswahl des Suchbegriffes auf das Ergebnis auswirken kann. Das gesuchte Dokument soll Informationen zur Biographie von Albert Einstein enthalten. Zunächst soll eine sehr naive Suche mit Alta Vista durchgeführt werden. Dazu werden die Suchbegriffe Albert und Einstein eingegeben. Als Ergebnis erhält man über 900.000 Treffer, wobei die ersten Dokumente noch nicht einmal direkt etwas mit Albert Einstein zu tun haben, sondern mit Einrichtungen, die in ihrem Namen den von Albert Einstein führen.
Bei einer etwas differenzierteren Abfrage der Form ‘albert NEAR einstein NEAR biographie AND title: (albert OR einstein)’ findet man nur noch 4 Treffer und das erste angezeigte Dokument ist in diesem Falle das Passende. Diese Suche ist zwar so konstruiert wurden, daß sie sofort das richtige Dokument liefert, zeigt aber doch, daß mittels einer sinnvollen Beschreibung der Anforderungen an das gesuchte Dokument, eine Suche direkt zum Ziel führen kann. In diesem Fall wurde verlangt, daß in dem Dokument ‘albert’, ‘einstein’ und ‘biographie’ dicht beieinander stehen müssen, und deshalb wahrscheinlich auch inhaltlich zusammengehören und im Title sollte der Vorname oder Nachname des berühmten Wissenschaftlers stehen, da das dafür spricht, daß es in dem gesamten Text auch um denselben geht.

4 Newsgroups

Newsgruppen sind ein wichtiges Informationsmedium, mit dem man sich über vielfältige Themen auf dem Laufenden halten kann. Sie funktionieren ähnlich wie schwarze Bretter, an denen jeder Nachrichten oder Fragen befestigen kann. Konkret verhält es sich so, daß es spezielle Newsserver gibt, auf denen eine bestimmte Auswahl an Newsgruppen angeboten wird. Schickt nun jemand eine Nachricht an diesen Server, reicht dieser die Nachricht an andere Newsserver mit der gleichen Newsgruppe weiter. Es gibt verschiedene Kategorien wie alt (alternative, für „etwas andere" Gruppen), biz (business, kommerzielle Gruppen, Stellenangebote), comp (Computer), misc (miscellaneous, Verschiedenes), soc (social, Kultur und Soziales), rec (recreation, Hobby und Freizeit) oder die Gruppe der deutschsprachigen Newsgruppen, die mit dem Kürzel ‘de’ beginnen und dann bei den Unterkategorien die Bezeichnungen der englischsprachigen Kategorien wählen.
Die Frage ist nun, wie man eine geeignete Newsgruppe findet, die speziell das Themengebiet behandelt, über das man sich informieren möchte. Viele Suchmaschinen (z.B. Alta Vista) bieten eine gesonderte Suche im Usenet an. Dort gibt man dann wie gewohnt einen oder mehrere Suchbegriffe ein und die Suchmaschine durchsucht dann die erfaßten Beiträge in Newsgroups. Als Ergebnis wird dann der Titel des Beitrages und der Name der Newsgroup geliefert. Hier kann man also schon erste Hinweise erhalten, wie die passende Newsgroup heißt. Jetzt schaut man auf seinem lokalen Newsserver nach, ob diese Newsgruppe dort geführt wird. Dieses kann mit einem Blick in die Gesamtübersicht der vorhandenen Gruppen festgestellt werden. Sollte diese Gruppe noch nicht vorhanden sein, muß man den Verwalter dieses Servers bitten, die Gruppe künftig zu beziehen, damit man ohne Probleme die Beiträge mit einer eigenen Newsreadersoftware abrufen kann. Es gibt aber auch öffentliche Newsserver, die nicht nur eine spezielle Nutzergruppe bedienen, sondern für jedermann frei zugänglich sind. Hier hat man Zugriff auf eine Datenbank öffentlicher Newsserver. Unter DejaNews kann man sich einen Überblick über existierende Newsgruppen verschaffen.
Wie informativ eine solche Newsgruppe ist, hängt von den Teilnehmern ab. Häufig verlieren sich die Teilnehmer einer Newsgruppe in Diskussionen um Nichtigkeiten. Unabhängig vom fachlichen Niveau sind die Newsgruppen aber ein gutes Stimmungsbarometer, in denen tagesaktuelle Probleme diskutiert werden, in denen Erfahrungen weitergegeben werden und auch Gerüchte in die Welt gesetzt werden. Will man die Meinung anderer Leute zum Thema ‘Rechtschreibreform’ erfahren, schaut man sich einfach den Diskussionsverlauf einer entsprechenden Newsgroup an, wie z.B. ’de.etc.sprache.deutsch’ oder andere.
Will man sich nun anfänglich an der Diskussion in einer Newsgruppe beteiligen, sollte man sich vorher, falls vorhanden, die am häufigsten gestellten Fragen durchlesen, die in einem FAQ-Dokument (FAQ steht für Frequently Asked Questions) zusammengefaßt sind. Eine Sammlung fast aller FAQ-Dokumente ist via FTP hier abrufbar.

5 Mailinglisten

Mailinglisten sind eine weitere Möglichkeit, sich über einen längeren Zeitraum mit aktuellen Informationen zu einem Thema auf dem Laufenden zu halten. Vom Prinzip sind sie ähnlich wie Newsgroups. Man kann Fragen stellen und Antworten geben oder die Diskussion still mitverfolgen. Das Grundprinzip ist der automatisierte Versand von Nachrichten an alle eingetragenen Teilnehmer. Durch eine einzige Nachricht werden alle Teilnehmer einer Liste erreicht. Die meisten Mailinglisten werden von spezieller Software verwaltet. Diese Programme erledigen einerseits die Verwaltung der Abonnenten (subscribers) der Mailingliste, andererseits übernehmen sie auch die Verteilung der Nachrichten an alle Abonnenten. Es gibt hierfür zwei verschiedene E-Mail-Adressen, eine Verwaltungsadresse, bei der man sich an- und abmelden muß. Die zweite Adresse ist die Listenadresse, an die man selbst Fragen oder Antworten schicken kann, die dann automatisch die Teilnehmer der Liste erreichen.
Mailinglisten gibt es ähnlich wie Newsgruppen zu zahlreichen Themengebieten. Es existieren drei wichtige Typen von Mailinglisten, Listen für den Erfahrungsaustausch unter Berufskollegen, Listen für den regelmäßigen Austausch zu einem gemeinsamen Interessengebiet (z.B. Diabetiker tauschen Erfahrungen mit ihrer Krankheit aus) und einfache Ankündigungslisten (z.B. Veranstaltungskalender einer Stadt). Auf Mailinglisten des ersten und zweiten Typs findet ein ständiger Austausch statt, in der Form, daß jemand eine Frage stellt und darauf eine Antwort erhält. Die dritte Gruppe liefert Informationen, ohne die Möglichkeit zu bieten, eigene Fragen zu stellen.
Um die geeignete Liste zu finden, kann man in speziellen Verzeichnissen nachschauen. Unter Liszt kann man eine Stichwort-basierte Suche nach Mailinglisten vornehmen oder sich durch hierarchisch geordnete Kategorien seiner Mailingliste nähern. Liszt hat derzeit über 80000 Mailinglisten erfaßt und ist damit wohl das größte derartige Verzeichnis.
Das ‘Directory of scholarly E-Conferences’ führt neben Mailinglisten auch Newsgruppen und andere Foren, deshalb wurde der Begriff ‘E-Conferences’ gewählt.
Eine andere Möglichkeit zur Suche nach Mailinglisten besteht mittels normaler Suchmaschinen. Hierbei sollte man als Stichwort ‘mailingliste OR mailing-liste’ und eine passende Beschreibung des Inhaltes als Stichwort eingeben. Ein Beispiel wäre bei Alta Vista in der Advanced Query: ‘(mailingliste OR mailing-liste) AND (briefmarken* OR philateli*)’, um somit eine Liste zu finden, die sich mit Briefmarken beschäftigt.

6 WAIS-Datenbankverbund

WAIS ist ein Akronym für Wide Area Information Server und ist für die Bereitstellung von Datenbanken über Netzwerke entwickelt worden. Hiermit sind hauptsächlich Text- und Literaturdatenbanken gemeint. WAIS bietet eine einheitliche Such- und Retrievaloberfläche an, so daß in verschiedenen Datenbanken unabhängig von der dort verwendeten Suchsprache recherchiert werden kann. Der Vorteil dieser Systeme ist das verteilte Management. Jeder Betreiber einer Datenbank ist nur für die Aktualisierung seines eigenen Datenbestandes verantwortlich. Der Benutzer kann aus der Gesamtheit aller Datenbanken auswählen ohne sich um deren konkrete Realisierung kümmern zu müssen. Auf der Benutzerseite ist eine passende Clientsoftware nötig, um die gesamte Funktionalität des WAIS-Datenbankverbundes auszuschöpfen. Um sich aber einen vorläufigen Eindruck zu verschaffen, ist ein Teil der Funktionalität über WWW Gateways nutzbar.

7 Kommerzielle Dienste

Als Alternative zu Katalogen, Suchmaschinen, Newsgruppen und Mailinglisten werden an dieser Stelle kommerzielle Datenbanken vorgestellt, die eine Recherche gegen eine entsprechende Gebühr ermöglichen. Beispielhaft sind im folgenden ein paar kommerzielle Datenbanken wie Medline (Medizin), Juris (Recht), Genios (Wirtschaft, Finanzen), Inspec (Physik, Elektrotechnik und Informatik) und Compuscience (Informatik) aufgeführt. Diese Datenbanken sind ursprünglich für die berufliche Nutzung gedacht gewesen. Der eigentliche Nutzen der Datenbanken liegt in der strukturierten Aufbereitung der Daten. Erst die Anreicherung der Originaldaten mit einer Inhaltsangabe und den Schlagwörtern ermöglicht eine effektive Recherche. Genau diese Aufbereitung verursacht aber auch immense Kosten, denn sie ist nur zu einem geringen Teil automatisierbar und aus diesem Grunde muß für die Benutzung der Datenbanken auch gezahlt werden. Damit sich solche Ausgaben auch lohnen, benötigt man neben dem reinen Zugang meist noch eine Schulung, da sonst die volle Funktionalität der Datenbanken nicht ausreichend genutzt werden kann. Trotzallem werden diese Datenbanken auch immer interessanter für den normalen Benutzer. Die ehemals komplizierten textuellen Abfragen werden durch grafische Oberflächen zunehmend ersetzt und somit die Abfrage immer weiter vereinfacht.
Eine Möglichkeit der schnellen Beschaffung von Fachliteratur ist via Internet bei den sogenannten Document Delivery Diensten vorhanden. Dies sind Anbieter, die Fachliteratur beschaffen und zustellen. Hiermit umgeht man das Problem, daß bei einer Literaturbestellung in der örtlichen Bibliothek häufig Wartezeiten in Kauf genommen werden müssen. Allerdings muß für eine Bestellung von Fachliteratur auf diesem Wege eine Gebühr bezahlt werden und es besteht nicht die Möglichkeit, den Inhalt ganzer Bücher zu erhalten, sondern nur Aufsätze in Fachzeitschriften.

8 Zukunft

Problematisch ist es bisher gewesen, aus HTML-Dokumenten die Informationen herauszufiltern, die eine Suche sinnvoll einschränken können, um somit möglichst viele interessante Dokumente zu finden und möglichst wenig Datenmüll. Die Entwicklung geht nun dahin, daß Metadaten in HTML Dokumente eingeführt werden, die Suchmaschinen ohne Probleme sofort erkennen und für ihre Informationssuche verwenden können. Hierzu gehören Informationen über die Art des Dokumentes, d.h. ist es ein Forschungsbericht, ein Aufsatz oder eine private Homepage, sowie Informationen über den Autor des Textes oder über den Herausgeber. Darüber hinaus sind natürlich noch andere Metadaten denkbar.
Die Entwicklung bei den Suchmaschinen wird wahrscheinlich dahin gehen, daß viele Menschen ihre persönlichen Suchmaschinen benutzen werden, abgestimmt auf ihre Interessen, auf ihr Profil. Ein Musiker wird dann bei der Eingabe des Wortes ‘Monitor’ ein anders Dokument erhalten als ein Informatiker.
Was jetzt auch schon genutzt werden kann sind intelligente Agenten. Grundlage hierfür sind verteilte Systeme von Datenbanken, die sich auf die Erfassung bestimmter Teilbereiche beschränken. Eine intelligente Suchsoftware kennt diese Datenbanken und sucht sie nacheinander oder parallel ab, sammelt die Ergebnisse ein, bereitet sie auf und übermittelt sie dem Auftraggeber. Dieser Softwaretyp heißt ‘intelligenter Agent’. Ein Beispiel für einen solchen intelligenten Agenten ist der BargainFinder (Schnäppchenfinder). Dieses Programm findet die billigsten CD-Angebote. Hierbei fragt es verschiedene Musik-CD-Anbieter ab, die im Internet Onlinekataloge unterhalten, so daß eine günstige Auswahl des gesuchten Produktes möglich ist. Dieses Programm ist noch in der Testphase und wird auch nicht von allen im Internet vertretenen Musik-CD-Anbietern unterstützt.

9 Die wichtigsten URLs auf einen Blick

Suchmaschinen

Alta Vista
Excite
Hotbot
Infoseek
Opentext
Ultraseek/Infoseek Ultra
Webcrawler
Dejanews (Newsgruppen)

Deutsche Suchmaschinen

Lycos Deutschland
Fireball
Hotlist
Kolibri
Crawler
Aladin

Thematische Verzeichnisse

Yahoo
Yahoo Deutschland
WWW Virtual Library
Tradeway Galaxy
Web.DE
DINO
Deutsche Datenquellen

Besprechungsdienste

Webtip
Lycos Top 5%
Magellan
Argus Clearinghouse of Subject

Oriented Guides to Internet
Resources

Meta-Suchhilfen

Metacrawler
MetaGer
Highway 61

CUSI (Deutschland)
Internet Sleuth
Search.com

Datenbanken

GBI Wirtschaft und Presse
Genios Wirtschaft und Finanzen
Juris Recht
DIMDI Medizin und Psychologie
STN Physik, Chemie, Technik, Patente
Knight-Rider Technik u.a.
ECHO Europa-Informationen
Inspec Physik, Elektrotechnik und Informatik
Compuscience Informatik

10 Literatur