Seminar Internettechnologien
Maik Höft
2.7.1998
In der folgenden Ausarbeitung des Vortrages Informationsrecherche im Internet werden verschiedene Suchhilfen und -methoden vorgestellt, die das Auffinden eines Dokumentes oder allgemein einer Information im Internet erleichtern. Um dem Leser einen Überblick über die Vielfalt dieser Unterstützungsmöglichkeiten zu vermitteln, werden keine konkreten Suchhilfen tiefergehend behandelt, sondern vielmehr charakteristische Eigenschaften verschiedener Suchhilfen hervorgehoben und ihre Eignung für das Auffinden einer bestimmten Information diskutiert. Hierbei werden zuerst Kataloge, Suchmaschinen und Meta-Suchmaschinen beschrieben, die bei einer spontanen Informationssuche häufig zum Ziel führen und wohl zu den populärsten Hilfsmitteln auf diesem Gebiet zählen. Auf diese drei Arten von Suchhilfe beziehen sich dann auch die darauf folgenden Recherchestrategien. Annähernd so beliebt bei der Recherche im Internet nach Informationen, aber mit dem Ziel einer Informationsbeschaffung über einen längeren Zeitraum, sind die Newsgroups und die Mailinglisten. Als Ergänzung werden dann noch der WAIS-Datenbankverbund und kommerzielle Dienste, wie kostenbehaftete Datenbanken, vorgestellt. Abschließend folgt ein Ausblick in die Zukunft der Informationsrecherche im Internet.
1 Motivation
2 Kurzfristige Informationssuche
2.1 Kataloge
2.2 Suchmaschinen
2.3 Meta-Suchmaschinen
2.4 Wann benutzt man
Suchmaschinen, wann Kataloge ?
3 Recherchestrategien
3.1 Vorüberlegungen
3.2 Internetressourcen finden über
den URL
3.3 Wahl des richtigen
Suchbegriffes
3.4 Differenzierte
Abfragemöglichkeiten
3.5 Einschränkung auf
Dokumentattribute
3.6 Umlaute, Sonderzeichen, Kurzworte,
Groß-/Kleinschreibung
3.7 Konkretes Beispiel für
Suchanfragen bei Alta Vista
4 Newsgroups
5 Mailinglisten
6 WAIS-Datenbankverbund
7 Kommerzielle Dienste
8 Zukunft
9 Die wichtigsten URLs auf einen Blick
10 Literatur
Im Internet finden sich zu fast jedem erdenklichen Themengebiet eine Vielzahl
von Dokumenten in jeglicher Form. Die Wahrscheinlichkeit, daß es ein
Dokument zu einem gesuchten Thema gibt, ist recht groß, doch wie findet
man die berühmte Stecknadel im Heuhaufen?
Die Strukturen, auf denen das Internet basiert, sind nicht im Hinblick auf
eine zielgerichtete Recherche entwickelt worden. Es gibt mehrere Punkte,
die eine erfolgreiche Informationssuche erschweren, die aber auf der anderen
Seite auch gewisse Vorteile haben, die das Internet gerade so beliebt machen.
Zu nennen wäre da eine fehlende Organisation, d.h. daß keiner
kontrolliert, wer, wo, was und wie veröffentlicht. Gäbe es eine
solche Instanz, wären dort gestellte Suchanfragen schnell und umfassend
zu beantworten. Durch die fehlende Strukturierung ergeben sich für den
Suchenden wenig Möglichkeiten der Vorauswahl. Konkret bedeutet das,
daß Texte, Grafiken, Bücher oder Datenbanken gleichberechtigt
nebeneinander stehen und Informationen über solche Veröffentlichungen
meist nicht für eine gezielte Suche zur Verfügung stehen.
Zusätzlich wird die Suche noch durch die Dynamik des Internets erschwert,
das sich tagtäglich verändert. Ob ein Dokument überhaupt zu
finden ist, hängt häufig davon ab, ob sich jemand die Zeit genommen
hat, die Informationen ins Internet zu stellen. Durch das Wissen um die passenden
Hilfsmittel für die Suche im Internet und Recherchestrategien lassen
sich diese Probleme jedoch in den Griff bekommen.
Kataloge fassen Internetressourcen nach Themengebieten zusammen und ordnen sie hierarchisch. Durch diese Organisation der erfaßten Dokumente wird es dem Suchenden ermöglicht, sich, ohne sich um irgendwelche Adressen oder Stichwörter kümmern zu müssen, vom Allgemeinen zum Speziellen Themengebiet zu bewegen. Startet man z.B. bei dem Thema Kultur kann man sich über Musik und Klassik den Werken von Mozart nähern. Häufig ist innerhalb der Kategorien noch die Eingabe eines Suchbegriffes möglich. Diese Suche beschränkt sich auf den Inhalt der momentanen Kategorie mit ihren Unterkategorien. Bekannte Kataloge sind Yahoo, WWW Virtual Library, Web.de oder DINO. Dadurch daß die Dokumente häufig durch eine eigene Redaktion in den Katalog aufgenommen werden, ist die inhaltliche Qualität der gefundenen Dokumente relativ hoch. Daraus resultieren aber auch die vergleichsweise wenigen Einträge, da Menschen die Dokumente erst lesen müssen, um sie dann einer Kategorie zuordnen zu können. Kataloge sind immer dann der geeignete Einstiegspunkt, wenn man eigentlich gar keine konkrete Information sucht, sondern wenn man sich einfach nur einen groben Überblick verschaffen will, was es in dem einen oder anderen Bereich für Internetangebote gibt.
Besondere Kataloge sind die sogenannten Besprechungsdienste. Die Dokumente werden wie bei den oben genannten Katalogen in Kategorien eingeteilt. Zusätzlich wird jedes erfaßte Dokument nach verschiedenen Kriterien bewertet, wie z.B. Inhalt, Aufbereitung, Wirkung oder ein Rezensionsdatum. Je nach Präferenz kann man sich dann die Dokumente einer Kategorie nach einem Kriterium sortieren lassen. Dienste dieser Art haben es sich zum Ziel gemacht, die besten Seiten zu erfassen. Der Besprechungsdienst Webtip hat sich vorgenommen, die besten 5% aller deutschen Seiten in den Katalog aufzunehmen. Das Problem liegt hier natürlich auf der Hand. Woher soll jemand anderes wissen, welches Dokument für mein Anliegen am besten geeignet ist, ein anderes Dokument könnte ja viel besser für meine Recherche sein. Es wird also nur ein Bruchteil des gesamten Informationsangebotes des Internets erfaßt. Allgemein kann man jedoch sagen, daß die dort gesammelten Daten qualitativ recht hochwertig sind; man kann dort gut nach anspruchsvollen Datenbanken z.B. für Musik oder Theater suchen. Weitere bekannte Vertreter der Besprechungsdienste sind Lycos Top 5% und Argus Clearinghouse.
Suchmaschinen bieten die Möglichkeit, mit einer einzigen Abfrage große
Teile des Internets zu durchsuchen. Man gibt hierbei einen oder mehrere
Suchbegriffe ein und erhält daraufhin eine Liste von Verweisen auf
Dokumente. Beispiele für Suchmaschinen sind
Alta Vista,
Excite,
HotBot oder
Lycos. Der große Vorteil der
Suchmachinen ist der, daß große Teile des WWW erfaßt sind.
Aber die Masse bringt hier auch viel Datenmüll mit sich, da die
erfaßten Dokumente nicht einer inhaltlichen Kontrolle unterzogen werden.
Da Suchmaschinen zu den am häufigsten frequentierten Diensten im Bereich
Internetrecherche gehören, lohnt es sich, ihre Arbeitsweise etwas genauer
zu untersuchen.Die Arbeitsfelder einer Suchmaschine können in drei Bereiche
aufgeteilt werden:
Zuerst müssen die Dokumente gefunden werden. Dies geschieht durch sogenannte
Robots oder Spiders, Programme die automatisch durch Nutzung der Hypertextlinks
von einer Seite zur nächsten springen und dabei sukzessive die Dokumente
erfassen. Um immer wieder neue Einstiegsseiten zu finden, werden auch spezielle
Verzeichnisse durchsucht, wie z.B. die oben genannten
Kataloge, oder es wird auf Servern nachgeschaut,
die es extra für solche Neuankündigungen gibt. Zusätzlich
bieten die meisten Suchmaschinen die Möglichkeit, daß man eigene
Seiten persönlich anmelden kann. Dadurch kann man als Autor einer Seite
sichergehen, daß die eigene Seite möglichst bald im Index einer
Suchmaschine erscheint.
Die zweite Aufgabe einer Suchmaschine besteht in der Indexierung der ermittelten
Dokumente. Indexierung heißt hier im einfachsten Fall, daß in
einer Ja-Nein-Struktur festgehalten wird, ob die Wörter des
Wörterverzeichnisses im Dokument enthalten sind. Die Suchmaschinen
unterscheiden sich in der Indexierung voneinander. Einige indexieren den
gesamten Text (wie z.B. Alta Vista), andere nur Teile, wie Überschrift,
die kurze Beschreibung der Seite und eventuell einige Zeilen des Textes (Lycos).
Probleme, die bei einer recht simplen Indexierung entstehen können,
sollen nun einmal an einem Beispiel erläutert werden:
| Geld | Macht | Bauern | Kuchen | Schrank | Schränke | |
| Geld allein macht glücklich | + | + | - | - | - | - |
| Bauernmöbel und Schränke | - | - | + | - | - | + |
| Kuchen backen für Singles | - | - | - | + | - | - |
| Die Macht der Könige | - | + | - | - | - | - |
| Gebäck im Schrank | - | - | - | - | + | - |
| Macht Kuchen dick? | - | - | - | + | - | - |
Die ganz linke Spalte enthält die Dokumente, deren Name gleich ihrem
Inhalt ist. In der obersten Zeile sind die Einträge im
Wörterverzeichnis aufgelistet. Kommt nun ein Wort des
Wörterverzeichnisses in dem Dokument vor, wird dies durch ein + markiert.
Das Dokument Geld allein macht glücklich enthält die
Wörter Geld und Macht, vorausgesetzt hier wird nicht zwischen Groß-
und Kleinschreibung unterschieden. Probleme können jetzt entstehen,
wenn bei einer Suche das Stichwort Macht eingegeben wird und als Ergebnis
Dokumente erwartet werden, die Macht in der Bedeutung Herrschaft enthalten.
Unsere konstruierte Suchmaschine würde jedoch auch Geld allein
macht glücklich und Macht Kuchen dick liefern. Weiter
würde es eine Suche erheblich vereinfachen, wenn Plural und Singular
eines Wortes innerhalb einer Spalte geführt werden, da jemand, der Schrank
eingibt sicherlich auch das Dokument Bauernmöbel und
Schränke erhalten möchte. Ein weiterer großer Vorteil,
wäre eine Verknüpfung von Wörtern, die inhaltlich miteinander
verwandt sind, wie z.B. Kuchen und Gebäck. Diese Verbindung schaffen
momentan nur die Kataloge, die durch eine Redaktion per Hand zusammengestellt
werden.
Darüber hinaus werden noch sogenannte Metadaten gesammelt, die für
die im nächsten Abschnitt beschriebene Sortierung der Treffer eine
wesentliche Rolle spielen. Dazu gehören die Position eines Wortes, die
Häufigkeit des Vorkommens eines Wortes, ob ein Wort ein Dateiname ist
oder ob das Wort innerhalb eines Links auf eine andere Seite vorkommt.
Der letzte Arbeitsschritt einer Suchmaschine besteht in der Sortierung der
gefundenen Dokumente nach ihrer Relevanz, d.h. die Dokumente, die am Besten
zur Suchanfrage passen, stehen in der Ergebnisliste ganz oben. Eine solche
Sortierung der Treffer nach ihrer Relevanz ist recht wichtig, da Suchanfragen
häufig Treffer in Tausenderhöhen liefern und niemand die Zeit und
Lust hat, alle Dokumente zu lesen. Es gibt bei der Sortierung keine
Patentrezepte, jede Suchmaschine arbeitet anders. Trotzdem macht es Sinn,
sich ein paar Ansätze (die natürlich auch miteinander kombiniert
werden können) mal anzuschauen:
Bei der Vielzahl von existierenden Suchmaschinen ist es sicherlich notwendig, sich über deren Unterschiede und damit über eine Auswahl Gedanken zu machen. Leider ist es sehr schwer, zuverlässige Informationen über die Suchmaschinen zu erhalten, so daß dieses Thema nur unbefriedigend besprochen werden kann. Mögliche Kriterien für eine Charakterisierung einer Suchmaschine wären die Anzahl der erfaßten Dokumente, der Indexierungsumfang, die Funktionalität, die Relevanzberechnung und die Aktualisierung. Man kann sich also fragen, wieviele Dokumente verwaltet die eine oder andere Suchmaschine und in welchem Umfang sind sie indexiert. Eine sehr große Anzahl von erfaßten Dokumenten relativiert sich bei einer Indexierung allein vom Titel des Dokumentes. Weiter kann man eine Suchmaschine dahin gehend beschreiben und bewerten, inwiefern sie dem Benutzer eine ausreichende Funktionalität zur Verfügung stellt (Anfrage mittels Boolescher Operatoren), nach welchen Kriterien sie eine Sortierung der Treffer vornimmt oder wie schnell neue Seiten erfaßt werden und nicht mehr existierende auch gelöscht werden.
In der folgenden Tabelle sind einige Suchmaschinen aufgeführt, die anhand einiger Punkte verglichen werden. Die Daten kommen zum größten Teil aus der kleinen Suchfibel.
| Anzahl der Dokumente | Indexierungsumfang | Funktionaltität | Aktualität | |
| Aladin | 2.4 Mio | Volltext | Eingeschänkt | - |
| Intersearch.de | 3 Mio | Volltext | Umfangreich | - |
| Fireball | 4.5 Mio | Volltext | Umfangreich | - |
| Alta Vista | 125 Mio | Volltext | Umfangreich | - |
| Hot Bot | 54 Mio | - | Umfangreich | - |
| Lycos | 34 Mio | Teiltext | Eingeschränkt | langsam in der Erfassung neuer Seiten |
Die drei oberen Suchmaschinen haben nur deutschsprachige Seiten erfaßt und die drei unteren sind englischsprachige Suchmaschinen. Fireball ist unter den deutschen die größte und bietet umfangreiche Funktionalität. Im Vergleich dazu enthält Aladin nur ungefähr halb so viele Dokumente und bietet nur eine eingeschränkte Funktionalität derart, daß man entscheiden kann, ob ein Suchbegriff vorkommen muß oder alle. Unter den hier aufgeführten englischsprachigen Suchmaschinen ist Alta Vista von den erfaßten Seiten mit Abstand die größte. Auch ist im fortgeschrittenen Suchmodus eine sehr differenzierte Abfrage möglich. Bezüglich der Aktualität waren nur Daten zu Lycos zu erhalten und die sprechen auch nicht gerade für Lycos.
Meta-Suchmaschinen sind Recherchetools, die mehrere einfache Suchmaschinen parallel abfragen und die Ergebnisse aufbereiten. Dies geschieht mittels eines Suchformulares. Dadurch, daß der Inhalt von mehreren Suchmaschinen abgefragt wird, erzielt man eine 3,5 mal bessere Abdeckung bei der Kombination der sechs größten Maschinen als bei der besten Einzelrecherche. Beispiele für Meta-Suchmaschinen sind Metacrawler, MetaGer und Highway61. Die Qualität einer Meta-Suchmaschine läßt sich anhand von 7 Bewertungskriterien bestimmen, die vor kurzem von einigen Fachleuten formuliert wurden und im Juli auf einer internationalen Tagung der Internet Society in Genf vorgestellt werden sollen.
Die oben genannten Meta-Suchmaschinen erfüllen alle sieben Kriterien. Die Vorteile von Meta-Suchmaschinen liegen klar auf der Hand. Der Benutzer spart sich die Zeit und die Arbeit, in den einzelnen Suchmaschinen persönlich zu suchen. Da die Menge der erfaßten Dokumente enorm groß ist, eignen sich Meta-Suchdienste vor allem für Suchen, die wenige Treffer erwarten lassen. Auf der anderen Seite steigt natürlich auch der Anteil des Datenmülls am Gesamtergebnis.
Wenn man diese beiden Suchhilfen nur anhand ihrer Größe vergleicht, könnte man zur der Meinung gelangen, daß Suchmaschinen für jede Art von Recherche besser geeignet sind als Kataloge. Dies ist aber nicht ganz richtig, da Kataloge und Suchmaschinen für ganz verschiedene Suchansätze gedacht sind.
Suchmaschinen sollten dann benutzt werden, wenn
Kataloge sind dagegen geeignet, wenn
Um eine Suche erfolgreich zu führen, sollte man sich vorher ein paar Gedanken machen. Es kann sehr hilfreich sein zu wissen, wer ein Interesse daran haben könnte, die gesuchte Information zu veröffentlichen. Wenn man herausfinden möchte, wieviele Platten die Rolling Stones von ihrer neuen Platte bisher verkauft haben, könnte man auf der eigenen Seite der Stones nachlesen, bei deren Plattenfima, in Online-Plattenläden, die ihre Verkauszahlen auch gerne mal veröffentlichen oder man könnte auch auf den Homepages von Rolling Stones Fans nachschauen.
Häufig hilft das Wissen um den Aufbau eines URL schon weiter, um sich eine Vorstellung davon machen zu können, unter welcher Adresse ein gesuchtes Dokument stehen könnte. Anhand folgender Adresse der Universität Oldenburg soll kurz erläutert werden, was man aus dem URL erfahren kann.
| http:// | www.uni-oldenburg.de/ | uni/geschichte.html |
| Das verwendete Protokoll | Hostname des Servers, bestehend aus Rechner- und Domainname |
Der Pfad zur gesuchten Datei, bestehend aus Verzeichnis- und Dateiname |
Am Ende des Rechnernamens steht die sogenannte Top-Level Domain, hier also
de. Eigentlich entspricht die Top-Level Domain dem Ländercode,
hier steht de für Deutschland. Allerdings sind darüber
hinaus auch noch andere Kürzel möglich, wie z.B. com (Kommerzielle
Anbieter), net (Netzanbieter und Provider) und org (nichtkommerzielle Angebote).
Vor der Top-Level Domain steht im Rechnernamen die Second-Level Domain. Diesen
Namen kann sich der Anbieter selber aussuchen. Dabei versuchen die Anbieter
natürlich, sich einen Namen zu sichern, der zu ihrem Angebot paßt.
Microsoft hat sich als Second-Level Domain selbstverständlich
Microsoft sichern lassen. Sucht man also die Vertretung einer
Firma im Internet, so sollte man folgende Adresse ausprobieren :
http://www.Firmenname.Top-Level Domain. Die Top-Level Domain sollte bei deutschen
Firmen, Organisationen oder Ähnlichem de sein, bei
ausländischen dementsprechend abgewandelt, bzw. es sollten auch
com, edu, gov, mil,
net oder org ausprobiert werden, wenn es angebracht
erscheint. Eine Liste der Ländercodes findet man
hier und eine Liste der
Top-Level Domains findet man
hier.
Hat man die Adresse einer Einrichtung gefunden, die der Gesuchten sehr
ähnlich ist, sollte man die gefundene Adresse mit entsprechender
Veränderung ausprobieren. Beispiel hierfür ist das Adressenformat
der deutschen Universitäten. Die meisten haben die Form
http://www.uni-Name_der_Uni.de. Hätte man nun die Adresse der Uni-Oldenburg
gefunden, müßte man nur Oldenburg durch
Trier ersetzen, um die Homepage der Uni Trier zu erhalten.
Umgekehrt kann man bei einer Suche mit einer Suchmaschine an der gefundenen
URL schon ablesen, ob das gefundene Dokument die Anforderungen erfüllt.
Sucht man beispielsweise Informationen zum Parteienprogramm der SPD und
erhält bei einer Suchanfrage unter anderem die URLs
http://www.spd.de/programm/inhalt.html und
http:/www.uni-soundso.de/politik.spd.html, so erhält man unter der ersten
Adresse offizielle Informationen zur SPD und unter der zweiten
eher Kommentare und Anmerkungen. Je nachdem woran man interessiert ist, kann
hier schon eine Vorauswahl erfolgen.
Häufig muß man trotzdem eine Suchmaschine zu Rate ziehen, und dann kommt es darauf an, den richtigen Suchbegriff zu wählen. Deshalb an dieser Stelle erstmal eine Merkregel : benutzt man eine kleine Suchmaschine sollte man einen allgemeinen Suchbegriff wählen; benutzt man eine große Suchmaschine, sollte man einen speziellen Suchbegriff nehmen. Will man beispielsweise wissen, wer das Maskottchen der WM 98 entworfen hat, sollte man in einer großen Suchmaschine den Namen des Maskottchens, also footix, eingeben und bei einer kleinen Suchmaschine vielleicht eher WM98 oder Maskottchen WM98.
Durch differenzierte Abfragen können die gesuchten Dokumente genauer
und auf die eigenen Bedürfnisse besser angepaßt beschrieben werden.
Die meisten Suchmaschinen bieten solche Abfragemöglichkeiten an. Im
Folgenden sollen einige beschrieben und an Beispielen verdeutlicht werden.
Bei vielen Suchmaschinen ist es möglich, die Suche auf bestimmte Attribute
oder Felder einzuschränken. Problem bei den WWW Dokumenten ist, daß
es wenig standardisierte Formen gibt, wie Autor, Herausgeber, Titel,
Erstellungsdatum oder die Art des Dokumentes. Diese Informationen stecken
zwar irgendwo in den Dokumenten, sind aber nicht so markiert, daß sie
von den Suchmaschinen verarbeitet werden können. Die wenigen Elemente,
die bisher bei Suchmaschinen verwendet werden können sind bei WWW Dokumenten
Titel ( im HTML Code enthaltene Titelangabe, die in den <Title>-Tags
steht), URL, Hostname, Dateityp, Erstellungsdatum, Hypertextlink und
Zwischenüberschriften. Mit diesen Suchmöglichkeiten kann die Recherche
sinnvoll eingeschränkt und unwichtige Dokumente ausgeschlossen werden.
Bei Alta Vista erfolgt dies durch Eingabe eines Schlüsselwortes und
eines Suchbegriffs bzw. einer Adresse, die durch einen Doppelpunkt voneinander
getrennt sind. An dieser Stelle sollen ein paar praktische Anwendungen
demonstriert werden, die die hier beschriebenen Suchmöglichkeiten
veranschaulichen. Die verwendete Syntax orientiert sich an der von Alta Vista
für eine Advanced Query.
Angenommen es werden Informationen zu Bertolt Brecht gesucht. Um nicht alle
Dokumente zu finden, die Bertolt oder Brecht enthalten, sollte man die Suche
auf den Titel beschränken, also title:"Bertolt Brecht" und
Bertolt Brecht als Phrase markieren. Um dann nur deutsche Dokumente zu finden,
kann die Suche auf Rechner eingeschränkt werden, die in der Domainangabe
de (Deutschland) aufweisen, also title:"Bertolt Brecht"
AND host:de.
Will man feststellen, wieviele und welche Verweise auf die eigene Homepage
zeigen, weil man vielleicht bald eine neue Adresse hat und dies den anderen
mitteilen möchte, damit sie ihre Verweise dementsprechend ändern
können, dann kann man dieses mit link:meine-Adresse
herausfinden.
Hat man eventuell irgendwo eine URL gelesen und nur noch den Dateinamen behalten,
dann kann man die Menge der in Frage kommenden Dokumente mit
url:Dateiname einschränken.
Möchte man Sound Dateien seiner Lieblingsband finden, kann dies mit
Lieblingsband AND link:wav erleichtert werden. Es werden als
Ergebnis auf diese Anfrage nur Seiten aufgeführt, die einen Verweis
auf Wave-Dateien enthalten und zudem irgendwo den Namen der Lieblingsband
stehen haben.
Sucht man Server einer ganz bestimmten Firma, wie z.B. Bayer, dann werden
durch folgende Suchanfrage host:bayer alle Dokumente gefunden,
in deren Hostname bayer vorkommt.
Die Möglichkeiten der gezielten Suche sind hier recht groß und
für eine effektive Suche sollte man sich die genaue Beschreibung der
Suchsprache der verwendeten Suchmaschine einmal genauer anschauen.
Liefert eine Anfrage mal nicht die gewünschten Ergebnisse, sollte man
noch mal überprüfen, ob folgende Formfehler eventuell dafür
verantwortlich sind, die bei bestimten Suchmaschinen das Suchergebnis leider
verfälschen:
Nicht jede Suchmaschine unterstützt die Suche nach Begriffen mit Umlauten.
Das Problem bei Umlauten und anderen nationalen Sonderzeichen besteht darin,
daß sie in HTML durch besondere Zeichenkombinationen dargestellt werden
und daß ihre Kodierung nicht einheitlich über alle Hard- und
Softwareplatten hinweg standardisiert ist. Die Umlaute werden also durch
andere Zeichen ersetzt und führen so zu ungewollten Suchbegriffen. Folgende
Suchmaschinen unterstützen die Suche nach Umlauten : Alta Vista, Hotbot,
Opentext, Webcrawler, Yahoo, Infoseek, Ultraseek, DINO, WEB.de und Lycos
(Deutschland). Folgende Suchmaschinen unterstützen keine Suche nach
Begriffen, die Umlaute enthalten : Excite und Lycos (USA).
Sonderzeichen wie Bindestriche, Punkte oder Pluszeichen sind im Regelfall
nicht suchbar. Sie werden von den Suchmaschinen ignoriert und wie Leerzeichen
behandelt. Wenn beispielsweise in einem Text das Wort
Musik-Festival vorkommt, wird es so behandelt, als ob die
Wörter Musik und Festival unverbunden nebeneinander
gestanden hätten. Die einzige Möglichkeit, Wörter mit
Sonderzeichen zu finden, ist die schon beschriebene Phrasensuche. Um bei
dem Beispiel Musik-Festival zu bleiben, muß hier
"Musik-Festival" eingegeben werden, damit der Trennstrich bei
der Suche berücksichtigt wird.
Auch Kurzworte mit weniger als drei Buchstaben werden im allgemeinen ignoriert,
weil sie nicht aussagekräftig sind (z.B. in, an, er) und nur die
Indexgröße der Suchmaschine unnötig vergrößern
würden. Wie bei den oben beschriebenen Sonderzeichen sollte die Phrasensuche
verwendet werden, wenn ein Kurzwort in das Suchergebnis miteinfließen
soll. Beispiele hierfür sind "Windows NT" oder " PC
Versand".
Als letzter Punkt den man bei der Suche beachten sollte, sei die
Groß-/Kleinschreibung genannt. Bei vielen Suchmaschinen wird ein
Suchbegriff, der große Buchstaben enthält als Aufforderung verstanden,
nach dem Wort so zu suchen, wie es eingegeben wurde. Wird dagegen ein Suchbegriff
nur in Kleinbuchstaben geschrieben, werden auch Dokumente gefunden, die das
Wort mit Großbuchstaben geschrieben enthalten. Eine Anfrage in
Kleinbuchstaben erhöht also die Anzahl der Treffer. Der Suchbegriff
student führt somit zu Dokumenten, die sowohl
student (engl.) als auch Student (deutsch) enthalten,
wohingegen Student als Suchbegriff nur Dokumente erfassen
würde, die das Wort genauso geschrieben enthalten. Bei einigen Suchmaschinen
kann man aber extra einstellen, ob Groß-/Kleinschreibung
berücksichtigt werden soll, oder ob alle Dokumente gefunden werden sollen,
die das Wort unabhängig von der Groß-/Kleinschreibung enthalten.
An dieser Stelle soll anhand einer kleinen Beispielrecherche aufgezeigt werden,
wie sich die richtige Auswahl des Suchbegriffes auf das Ergebnis auswirken
kann. Das gesuchte Dokument soll Informationen zur Biographie von Albert
Einstein enthalten. Zunächst soll eine sehr naive Suche mit Alta Vista
durchgeführt werden. Dazu werden die Suchbegriffe Albert und Einstein
eingegeben. Als Ergebnis erhält man über 900.000 Treffer, wobei
die ersten Dokumente noch nicht einmal direkt etwas mit Albert Einstein zu
tun haben, sondern mit Einrichtungen, die in ihrem Namen den von Albert Einstein
führen.
Bei einer etwas differenzierteren Abfrage der Form albert NEAR einstein
NEAR biographie AND title: (albert OR einstein) findet man nur noch
4 Treffer und das erste angezeigte Dokument ist in diesem Falle das Passende.
Diese Suche ist zwar so konstruiert wurden, daß sie sofort das richtige
Dokument liefert, zeigt aber doch, daß mittels einer sinnvollen
Beschreibung der Anforderungen an das gesuchte Dokument, eine Suche direkt
zum Ziel führen kann. In diesem Fall wurde verlangt, daß in dem
Dokument albert, einstein und biographie
dicht beieinander stehen müssen, und deshalb wahrscheinlich auch inhaltlich
zusammengehören und im Title sollte der Vorname oder Nachname des
berühmten Wissenschaftlers stehen, da das dafür spricht, daß
es in dem gesamten Text auch um denselben geht.
Newsgruppen sind ein wichtiges Informationsmedium, mit dem man sich über
vielfältige Themen auf dem Laufenden halten kann. Sie funktionieren
ähnlich wie schwarze Bretter, an denen jeder Nachrichten oder Fragen
befestigen kann. Konkret verhält es sich so, daß es spezielle
Newsserver gibt, auf denen eine bestimmte Auswahl an Newsgruppen angeboten
wird. Schickt nun jemand eine Nachricht an diesen Server, reicht dieser die
Nachricht an andere Newsserver mit der gleichen Newsgruppe weiter. Es gibt
verschiedene Kategorien wie alt (alternative, für etwas andere"
Gruppen), biz (business, kommerzielle Gruppen, Stellenangebote), comp (Computer),
misc (miscellaneous, Verschiedenes), soc (social, Kultur und Soziales), rec
(recreation, Hobby und Freizeit) oder die Gruppe der deutschsprachigen
Newsgruppen, die mit dem Kürzel de beginnen und dann bei
den Unterkategorien die Bezeichnungen der englischsprachigen Kategorien
wählen.
Die Frage ist nun, wie man eine geeignete Newsgruppe findet, die speziell
das Themengebiet behandelt, über das man sich informieren möchte.
Viele Suchmaschinen (z.B. Alta Vista) bieten eine gesonderte Suche im Usenet
an. Dort gibt man dann wie gewohnt einen oder mehrere Suchbegriffe ein und
die Suchmaschine durchsucht dann die erfaßten Beiträge in Newsgroups.
Als Ergebnis wird dann der Titel des Beitrages und der Name der Newsgroup
geliefert. Hier kann man also schon erste Hinweise erhalten, wie die passende
Newsgroup heißt. Jetzt schaut man auf seinem lokalen Newsserver nach,
ob diese Newsgruppe dort geführt wird. Dieses kann mit einem Blick in
die Gesamtübersicht der vorhandenen Gruppen festgestellt werden. Sollte
diese Gruppe noch nicht vorhanden sein, muß man den Verwalter dieses
Servers bitten, die Gruppe künftig zu beziehen, damit man ohne Probleme
die Beiträge mit einer eigenen Newsreadersoftware abrufen kann. Es gibt
aber auch öffentliche Newsserver, die nicht nur eine spezielle Nutzergruppe
bedienen, sondern für jedermann frei zugänglich sind.
Hier hat man Zugriff auf eine Datenbank
öffentlicher Newsserver. Unter
DejaNews kann man sich einen
Überblick über existierende Newsgruppen verschaffen.
Wie informativ eine solche Newsgruppe ist, hängt von den Teilnehmern
ab. Häufig verlieren sich die Teilnehmer einer Newsgruppe in Diskussionen
um Nichtigkeiten. Unabhängig vom fachlichen Niveau sind die Newsgruppen
aber ein gutes Stimmungsbarometer, in denen tagesaktuelle Probleme diskutiert
werden, in denen Erfahrungen weitergegeben werden und auch Gerüchte
in die Welt gesetzt werden. Will man die Meinung anderer Leute zum Thema
Rechtschreibreform erfahren, schaut man sich einfach den
Diskussionsverlauf einer entsprechenden Newsgroup an, wie z.B.
de.etc.sprache.deutsch oder andere.
Will man sich nun anfänglich an der Diskussion in einer Newsgruppe
beteiligen, sollte man sich vorher, falls vorhanden, die am häufigsten
gestellten Fragen durchlesen, die in einem FAQ-Dokument (FAQ steht für
Frequently Asked Questions) zusammengefaßt sind. Eine Sammlung fast
aller FAQ-Dokumente ist via FTP
hier abrufbar.
Mailinglisten sind eine weitere Möglichkeit, sich über einen
längeren Zeitraum mit aktuellen Informationen zu einem Thema auf dem
Laufenden zu halten. Vom Prinzip sind sie ähnlich wie Newsgroups. Man
kann Fragen stellen und Antworten geben oder die Diskussion still mitverfolgen.
Das Grundprinzip ist der automatisierte Versand von Nachrichten an alle
eingetragenen Teilnehmer. Durch eine einzige Nachricht werden alle Teilnehmer
einer Liste erreicht. Die meisten Mailinglisten werden von spezieller Software
verwaltet. Diese Programme erledigen einerseits die Verwaltung der Abonnenten
(subscribers) der Mailingliste, andererseits übernehmen sie auch die
Verteilung der Nachrichten an alle Abonnenten. Es gibt hierfür zwei
verschiedene E-Mail-Adressen, eine Verwaltungsadresse, bei der man sich an-
und abmelden muß. Die zweite Adresse ist die Listenadresse, an die
man selbst Fragen oder Antworten schicken kann, die dann automatisch die
Teilnehmer der Liste erreichen.
Mailinglisten gibt es ähnlich wie Newsgruppen zu zahlreichen Themengebieten.
Es existieren drei wichtige Typen von Mailinglisten, Listen für den
Erfahrungsaustausch unter Berufskollegen, Listen für den
regelmäßigen Austausch zu einem gemeinsamen Interessengebiet (z.B.
Diabetiker tauschen Erfahrungen mit ihrer Krankheit aus) und einfache
Ankündigungslisten (z.B. Veranstaltungskalender einer Stadt). Auf
Mailinglisten des ersten und zweiten Typs findet ein ständiger Austausch
statt, in der Form, daß jemand eine Frage stellt und darauf eine Antwort
erhält. Die dritte Gruppe liefert Informationen, ohne die Möglichkeit
zu bieten, eigene Fragen zu stellen.
Um die geeignete Liste zu finden, kann man in speziellen Verzeichnissen
nachschauen. Unter Liszt kann man eine
Stichwort-basierte Suche nach Mailinglisten vornehmen oder sich durch
hierarchisch geordnete Kategorien seiner Mailingliste nähern. Liszt
hat derzeit über 80000 Mailinglisten erfaßt und ist damit wohl
das größte derartige Verzeichnis.
Das Directory of scholarly
E-Conferences führt neben Mailinglisten auch Newsgruppen und
andere Foren, deshalb wurde der Begriff E-Conferences
gewählt.
Eine andere Möglichkeit zur Suche nach Mailinglisten besteht mittels
normaler Suchmaschinen. Hierbei sollte man als Stichwort mailingliste
OR mailing-liste und eine passende Beschreibung des Inhaltes als Stichwort
eingeben. Ein Beispiel wäre bei Alta Vista in der Advanced Query:
(mailingliste OR mailing-liste) AND (briefmarken* OR philateli*),
um somit eine Liste zu finden, die sich mit Briefmarken beschäftigt.
WAIS ist ein Akronym für Wide Area Information Server und ist für die Bereitstellung von Datenbanken über Netzwerke entwickelt worden. Hiermit sind hauptsächlich Text- und Literaturdatenbanken gemeint. WAIS bietet eine einheitliche Such- und Retrievaloberfläche an, so daß in verschiedenen Datenbanken unabhängig von der dort verwendeten Suchsprache recherchiert werden kann. Der Vorteil dieser Systeme ist das verteilte Management. Jeder Betreiber einer Datenbank ist nur für die Aktualisierung seines eigenen Datenbestandes verantwortlich. Der Benutzer kann aus der Gesamtheit aller Datenbanken auswählen ohne sich um deren konkrete Realisierung kümmern zu müssen. Auf der Benutzerseite ist eine passende Clientsoftware nötig, um die gesamte Funktionalität des WAIS-Datenbankverbundes auszuschöpfen. Um sich aber einen vorläufigen Eindruck zu verschaffen, ist ein Teil der Funktionalität über WWW Gateways nutzbar.
Als Alternative zu Katalogen, Suchmaschinen, Newsgruppen und Mailinglisten
werden an dieser Stelle kommerzielle Datenbanken vorgestellt, die eine Recherche
gegen eine entsprechende Gebühr ermöglichen. Beispielhaft sind
im folgenden ein paar kommerzielle Datenbanken wie
Medline (Medizin),
Juris (Recht),
Genios (Wirtschaft, Finanzen),
Inspec (Physik,
Elektrotechnik und Informatik) und
Compuscience
(Informatik) aufgeführt. Diese Datenbanken sind ursprünglich für
die berufliche Nutzung gedacht gewesen. Der eigentliche Nutzen der Datenbanken
liegt in der strukturierten Aufbereitung der Daten. Erst die Anreicherung
der Originaldaten mit einer Inhaltsangabe und den Schlagwörtern
ermöglicht eine effektive Recherche. Genau diese Aufbereitung verursacht
aber auch immense Kosten, denn sie ist nur zu einem geringen Teil automatisierbar
und aus diesem Grunde muß für die Benutzung der Datenbanken auch
gezahlt werden. Damit sich solche Ausgaben auch lohnen, benötigt man
neben dem reinen Zugang meist noch eine Schulung, da sonst die volle
Funktionalität der Datenbanken nicht ausreichend genutzt werden kann.
Trotzallem werden diese Datenbanken auch immer interessanter für den
normalen Benutzer. Die ehemals komplizierten textuellen Abfragen werden durch
grafische Oberflächen zunehmend ersetzt und somit die Abfrage immer
weiter vereinfacht.
Eine Möglichkeit der schnellen Beschaffung von Fachliteratur ist via
Internet bei den sogenannten Document Delivery Diensten vorhanden. Dies sind
Anbieter, die Fachliteratur beschaffen und zustellen. Hiermit umgeht man
das Problem, daß bei einer Literaturbestellung in der örtlichen
Bibliothek häufig Wartezeiten in Kauf genommen werden müssen.
Allerdings muß für eine Bestellung von Fachliteratur auf diesem
Wege eine Gebühr bezahlt werden und es besteht nicht die Möglichkeit,
den Inhalt ganzer Bücher zu erhalten, sondern nur Aufsätze in
Fachzeitschriften.
Problematisch ist es bisher gewesen, aus HTML-Dokumenten die Informationen
herauszufiltern, die eine Suche sinnvoll einschränken können, um
somit möglichst viele interessante Dokumente zu finden und möglichst
wenig Datenmüll. Die Entwicklung geht nun dahin, daß Metadaten
in HTML Dokumente eingeführt werden, die Suchmaschinen ohne Probleme
sofort erkennen und für ihre Informationssuche verwenden können.
Hierzu gehören Informationen über die Art des Dokumentes, d.h.
ist es ein Forschungsbericht, ein Aufsatz oder eine private Homepage, sowie
Informationen über den Autor des Textes oder über den Herausgeber.
Darüber hinaus sind natürlich noch andere Metadaten denkbar.
Die Entwicklung bei den Suchmaschinen wird wahrscheinlich dahin gehen, daß
viele Menschen ihre persönlichen Suchmaschinen benutzen werden, abgestimmt
auf ihre Interessen, auf ihr Profil. Ein Musiker wird dann bei der Eingabe
des Wortes Monitor ein anders Dokument erhalten als ein
Informatiker.
Was jetzt auch schon genutzt werden kann sind intelligente Agenten. Grundlage
hierfür sind verteilte Systeme von Datenbanken, die sich auf die Erfassung
bestimmter Teilbereiche beschränken. Eine intelligente Suchsoftware
kennt diese Datenbanken und sucht sie nacheinander oder parallel ab, sammelt
die Ergebnisse ein, bereitet sie auf und übermittelt sie dem Auftraggeber.
Dieser Softwaretyp heißt intelligenter Agent. Ein Beispiel
für einen solchen intelligenten Agenten ist der
BargainFinder
(Schnäppchenfinder). Dieses Programm findet die billigsten CD-Angebote.
Hierbei fragt es verschiedene Musik-CD-Anbieter ab, die im Internet
Onlinekataloge unterhalten, so daß eine günstige Auswahl des gesuchten
Produktes möglich ist. Dieses Programm ist noch in der Testphase und
wird auch nicht von allen im Internet vertretenen Musik-CD-Anbietern
unterstützt.
Suchmaschinen
Alta Vista
Excite
Hotbot
Infoseek
Opentext
Ultraseek/Infoseek Ultra
Webcrawler
Dejanews (Newsgruppen)
Deutsche Suchmaschinen
Lycos Deutschland
Fireball
Hotlist
Kolibri
Crawler
Aladin
Thematische Verzeichnisse
Yahoo
Yahoo Deutschland
WWW Virtual Library
Tradeway Galaxy
Web.DE
DINO
Deutsche
Datenquellen
Besprechungsdienste
Webtip
Lycos Top 5%
Magellan
Argus Clearinghouse of Subject
Oriented Guides to Internet
Resources
Meta-Suchhilfen
Metacrawler
MetaGer
Highway 61
CUSI (Deutschland)
Internet Sleuth
Search.com
Datenbanken
GBI Wirtschaft und Presse
Genios Wirtschaft und Finanzen
Juris Recht
DIMDI Medizin und Psychologie
STN Physik, Chemie, Technik,
Patente
Knight-Rider Technik u.a.
ECHO Europa-Informationen
Inspec Physik, Elektrotechnik
und Informatik
Compuscience
Informatik