WIE FUNKTIONIEREN SEARCH ENGINES? Search eingines, also Tools die den Internet User auf der Suche nach Informationen helfen, setzen sich aus drei funktionalen Teilen zusammen: -Programme für die Suche und Indexierung der Ressourcen auf dem Netz. -eine Datenbank, welche die Inhalte und Adressen der Web-Seiten in indexierter Form speichert. -das Interface, mit dem der Endbenutzer interagiert, um die Datenbank abzufragen. Die Suchtools lassen sich, obwohl sie grundsätzlich alle das gleiche wollen, nämlich möglichst schnell die gewünschte Information auf den Bildschirm zu zaubern, nach der Art und Weise wie sie bei der Suche und Indexierung der Internet Seiten (Pages) vorgehen, in drei Gruppen unterteilen: -verzeichnisorientierte Suchdienste. -maschinenorientierte Search-Engines. -Metasuch-Maschinen. Ein Beispiel eines verzeichnisorientierten Suchdienstes ist Yahoo!. Mit dem enzyklopädischen Glauben das Netz (als Behälter für das gesamte Wissen) sei durch menschliche Intelligenz in Kategorien inhaltlich organisierbar, arbeitet hier ein Team an der manuellen Einordnung, in immer präziesere Sparten und Subsparten, der auf dem Internet verfügbaren Informationen. "Manuell" bedeutet in diesem Zusammenhang das die Information von den Betreibern des Suchsystems durch Surfen (Verfolgen von Links, von einer Page zur nächsten, auch Browsen genannt) oder durch direkte Submission durch die Autoren der Pages gesammelt wird. Yahoo listet 14 Interessensbereiche auf, die als Ausgangspunkte für eine Directory-orientierte Suche benutzt werden können. Man hangelt sich, wie an einem Baum, von einer Verästelung zur nächsten, bis man beim gewünschten Site angekommen ist. Der Vorteil dieser Art Suchsysteme, die man auch als Internet Kataloge bezeichnen könnte, ist dass die katalogisierten Sites von Internet-Kennern begutachtet und mit einem Gütesiegel oder einer notenähnlichen Bewertung versehen werden. Magellan beispielsweise signalisiert eine jugendfreie Site mit einer grünen Ampel und erteilt eine Bewertung von einem bis vier Punkten. Der Verzeichnisdienst erlaubt zudem, dass eine Suche beispielsweise nur solche Sites auflistet, die mit mehr als drei Punkten ausgezeichnet wurden. Nachteil dieses Vorgehen ist die Subjektivität, die einerseites durch die von denkenden Menschen kurierte Einteilung und andererseits durch die Partialität der Auswahl entsteht. Denn im Angesicht der Grösse und vorallem der Wachstumsrate des Netzes, kann mit dieser Vorgehensweise nur ein Bruchteil (zwischen 15’000 und 50’000 Einträgen) des gesamten Informationsbestandes berücksichtigt, angeschaut und verarbeitet werden. Bei den maschinenorientierten Such-Engines wird die Suche und die Indexierung der Informationen voll automatisiert, d.h. von Programmen erledigt. Dies geschieht mittels Spiders (auch als Wanderer, Harvest und Pursuits bezeichnet), Software Roboters, die das Netz auf der Suche nach noch nicht indexierter Information ständig durchwandern. Spiders starten mit einer Liste von etwa 10 bekannten Sites, laden diese runter, indexieren sie und folgen dann allen Links (Adressen von anderen Sites), die sie in diesen Sites gefunden haben. Dieser Prozess wiederholt sich bis kein Link mehr zu einer neuen Page führt. Dann starten sie, mit anderen 10 Adressen, den ganzen Prozess neu, usw... Beispiele dafür sind Lycos und WebCrawler, beide ursprünglich Universitätsprojekte, die der ersten Generation der Such-Engines angehören. Im Gegensatz zu den verzeichnisorientierten Suchdiensten decken Suchmaschinen praktisch das ganze Angebot im Cyberspace ab: Lycos, beispielsweise, behauptet von sich, etwa 90 Prozent aller Web-Seiten auf ihren Servern geladen zu haben. Maschinenorientierte Such-Engines lösen also das Problem der Subjektivitaet der Ordnungskriterien, sowie der Partialität der Auswahl, garantieren aber keine Kontextgebundenheit der Information, was in vielen Situationen irritieren und verwirren kann. Problematisch an diesem System das Netz zu indexieren ist, das es nicht nach Inhalten, sondern nach Wörtern und deren Vorkommen ausgerichtet ist. Dabei wird keine Rücksicht auf den Kontext in dem die Woerter gebraucht werden genommen. Was, wenn man bedenkt wie verschieden der Sinn eines Wortes je nach Kontext sein kann, zu unerwarteten, sowie unbrauchbaren Suchergebnissen führen kann. Das erfolgreiche Suchen mit diesen Engines verlangt desshalb nach gewissen Tricks (siehe auch "Wie benutzt man Search Engines? "), weil die Engine keine inhaltliche Kontrolle über die Seiten die sie angibt hat, sondern sich darauf beschränkt zu kontrollieren wie oft das abgefragte Wort darin vorkommt. Wenn man sich dieser Beschränkung bewusst ist, kann man aber mit diesen Engines ganz gut operieren, weil sie einem erlauben, nach ganz speziellen Informationen zu suchen, die dank der Grösse des indexierten Informationspool meistens auch irgendwo auffindbar sind. Diese Art das Internet zu "durchwühlen" entspricht dem Geist des Netzes sicherlich mehr als das verzeichnisorientierte Suchen, weil man Informationen und Inhalte, die sonst gar nie zusammenkommen würden, in einer, zugegeben chaotische Art und Weise, assozieren kann. Im Spektrum der Engines die auf Automatisation setzen gibt es einige, wie z.B. "exite", deren Ziel es ist ihre Such- und Indexierungroboter so raffiniert zu programmieren, dass sie sich ein Verständnis erarbeiten können für den Kontext, in dem Suchwörter eingesetzt werden. Dies erlaubt es "exite" das Netz nach Konzepten anstatt Wörter zu indexieren. Voraussetzung für den Erfolg dieses Ansatzes ist aber, nach wie vor, die Fähigkeit, das gesamte Internet zu indexieren und diesen Index ständig "up to date" zu halten. Vor nur wenigen Jahren, als das Internet nur einige tausend Seiten gross war, konnte ein Spider in weniger als einem Tag eine komplette Indexierung vornehmen. Heute umfasst das Internet (je nach Quelle) schätzungsweise zwischen 30 und 50 Mio. Pages, also, wenn man einen Durschschnitt von 500 Wörter pro Page annimmt, etwa 15 bis 25 Mia. Wörter und die schnellsten Spiders brauchen für die Analyse dieser Menge etwa 3 bis 4 Tagen. Dazu kommt ein Wachstum, von momentan 20 % pro Monat. Die Search Engines müssen diese Datenmenge ständig up to date halten und in raffinierten Datenbanken die verschiedene Quersucharten erlauben, verwalten und dem User verfügbarmachen. Kann die Geschwindigkeit der Rechnern und somit der Spider nicht mit der Wachstumsgeschwindichkeit des Netzes mithalten, nimmt die Qualität der, von ihnen versorgten, Informationen ab, weil einen Teil ständig veraltet (out of date) ist. Bei Inktomi, beispielsweise, reagierte man auf dieses Problem mit zwei neuen Ansätzen: Einerseits umgehen sie das Problem der ungenügenden Rechenleistung mit der Vernetzung von mehreren durchschnittlichen Rechnern (die anderen Zwecken dienen aber noch freie Kapazität haben, z.B. nachts) zu einem Supercomputer, anderseits programmieren sie ihre Spiders so, dass sie sich merken können, welche Pages öfters Inhalt oder Adresse ändern, so dass vorallem diese täglich neu indexiert werden. Durch intelligente Spider wird also Zeit gespart und Informationsqualität gewonnen. Metasuch-Engines sollten eigentlich das Nonplusultra der Suchtools sein, weil sie über eine einzige Eingabemaske gleichzeitig reihenweise Such-Engines ansteuern. Savvy Search, Metacrawler und mit gewissen Abstrichen auch All 4 One sind aber bisher die einzigen Metasuch-Engines, die diesen hohen Erwartungen gerecht werden. Savvy Search beispielsweise steuert parallel 19, in vier Gruppen unterteilte Such-Engines an und kombiniert die Resultat so, dass Zweifachnennungen ausgeschlossen werden. Doch Savvy Search kann noch mehr: Die Engine vergleicht eine Abfrage mit einer speziellen Search-Datenbank und erstellt einen Suchplan mit den geeignetsten Such-Engines zusammen. Die Kombination von parallelen Suchmöglichkeiten und schnellen Such- und Index-Maschinen wird wohl das Rückgrat künftiger Such-Engine-Generationen sein. Die meisten Metasuch-Engines sind aber nicht mehr als eine Ansammlung von verschiedenen individuellen Such-Engines und anderen Auskunftsdiensten. The Internet Sleuth bietet die grösste Zusammenstellung von abfragbaren Datenbanken. Der Benutzer kann aus nicht weniger als 900 verschiedenen Datenbanken Informationen abrufen. So befinden sich auf dem Internet Sleuth Kuriositäten wie, ein Auskunftsdienst für die E-Mail-Adressen aller Anthropologen weltweit. Den zweiten Teilaspekt jeder "search engine" ist das "user interface", die graphische Schnittstelle mittels welcher der User die Indexierte Datenbank abfragen kann. Das Verständnis der hier zur Verfügung gestellten Optionen ist, für einen erfolgreichen Umgang mit dem Suchtool, unerlässlich. Ein Kriterium für die Beurteilung von "search engines" ist also, neben Groesse, Inhalt und Aktualität der Datenbank, die Geschwindigkeit und das Design (Übersicht, Klarheit, Benutzerfreundlichkeit, usw...) des Suchinterface. Mehr dazu erfahren Sie im Abschnitt WIE BENUTZT MAN SEARCH ENGINES? This website has been archived and is no longer maintained.