Suchmaschinen heute - oder die Lust auf Frust?


26.05.2003

Seit es das Internet mit vielen Informationsquellen gibt, spaltet sich die Schar der User in die Gruppe der Jäger und Sammler, die sich über jeden Treffer freuen und in die Gruppe derjenigen, die über die Vielzahl der Informationen stöhnen. Wurde anfangs voller Stolz jeder erfolgreiche Link zu einem Wissensfundus als Geheimtipp nur an gute Freunde weitergegeben, entwickelte sich im Laufe der letzten Jahre aus Lust der Frust. Eine Recherche im Internet kostet viel Zeit, gute Nerven und inzwischen meist auch Geld. Die Ergebnisse, die heute vielfach von Suchmaschinen geliefert werden, sind in ihrer Qualität oft miserabel, ihre Quantität hingegen erschlagend. Es gilt also, die Spreu vom Weizen zu trennen. Heute zählen nur noch jene Wissensquellen, deren Inhalte mittels einer guten Suchmaschine schnell und überschaubar wirkliche Treffer liefern. Dazu gehört vor allem, dass die oft zahlreichen Treffer nach ihrer inhaltlichen Relevanz geordnet angeboten werden. Erst eine nach absteigender Relevanz sortierte Trefferliste macht das Arbeiten mit großen Treffermengen erträglich.

Einteilung der traditionellen Suchmaschinen

Die traditionellen Suchmaschinen, die im Umfeld von DMS als Retrievalsysteme bezeichnet werden, lassen sich grundsätzlich hinsichtlich der unterstützten Verfahren in zwei Gruppen einteilen: Zum Einen wird auf der Basis einfacher Indexbegriffe / Indexwerte in einer Datenbank eine Selektion vorgenommen, die dann zu den zugeordneten Informationen / Dokumente führt. Diese Vorgehensweise eignet sich gut für die Suche in Informationsbeständen, deren Struktur und Bedeutung eindeutig zugeordnet werden kann. (Beispiel: Kommerzielle Belege wie Eingangsrechnungen, Lieferscheine etc.) Zum Anderen werden mit den herkömmlichen Verfahren der Volltext-Recherche alle Informationen / Dokumente des zu durchsuchenden Pools auf die Existenz der als Suchwort(e) eingegebenen einzelnen Begriffe oder Phrasen geprüft. Ob das jeweilige Dokument für den Suchenden inhaltlich relevant ist, wird von der Existenz und deren Häufigkeit der Suchworte im Text abhängig gemacht. So arbeiten heute die meisten Suchmaschinen, von der Recherchemaschine in einer speziellen Informationsdatenbank wie Juris bis hin zu diversen Suchmaschinen im Web. Der wesentliche Schwachpunkt dieser herkömmlichen Suchmaschinen liegt in der Annahme, dass die Häufigkeit, in der die Suchbegriffe im Text vorhanden sind, direkt auf die inhaltliche Relevanz der Texte für den Suchenden schließen lassen. Das ist aber ebenso wenig der Fall, wie gebetsmühlenartige Wiederholungen einer Aussage deren Wahrheitsgehalt erhöhen.

An den geschilderten Schwachpunkten herkömmlicher Suchmaschinen ändern auch Meta-Suchmaschinen prinzipiell nichts. Bestenfalls sind graduelle Verbesserungen erreichbar, wenn diese im Verbund arbeitenden Suchmaschinen simultan auf unterschiedliche Informationsbestände zugreifen. Der wesentliche Effekt liegt dann darin, dass der Suchende aus seiner Sicht nur eine Suche starten muss, die von mehreren Suchmaschinen parallel ausgeführt werden. Allerdings führt auch das zu mehr Masse als Klasse. Daher führen die Suchergebnisse, die mit bisherigen Suchmaschinen erzielt werden, eher zu Frust als zur Lust - Grund genug, mit Nachdruck an der Entwicklung neuer Konzepte für künftige Suchmaschinen zu arbeiten, die inhaltliche Relevanz der Treffer in weit höherem Maße sicherstellen können und so zu einer erheblichen Steigerung der Ergebnisqualität bei gleichzeitiger Verringerung des Suchaufwands führen.

Neue Internet-Suchmaschinen wie etwa wisenut oder vivisimo verblüffen durch ihre Funktionen: Jedem Suchwort werden inhaltliche Kategorien zugeordnet, die die Suche überschaubar machen. Parallel dazu werden Datenbank- und DMS-Produkte mit intelligenten Retrieval-Funktionalitäten ausgestattet. Worin unterscheiden sich technologisch die zahlreichen Produkte am Markt?

Das Vektorraum-Modell

Zwei Dokumente weisen dann eine inhaltliche Ähnlichkeit auf, wenn sie möglichst viele Begriffe gemeinsam enthalten. Für jeden Begriff wird ermittelt, wie oft er insgesamt im Datenbestand auftritt und wie oft er in einem einzelnen Dokument enthalten ist. Die relative Häufigkeit eines Begriffes wird somit zur Gewichtungsgrundlage. Die Abbildung des Dokumentes auf eine Kette gewichteter Begriffe wird als Vektor bezeichnet. Wenn zwei Vektoren in dieselbe Richtung zeigen, sind die dazugehörigen Dokumente ähnlich. Der Winkel zwischen den beiden Vektoren definiert also das Ähnlichkeitsmaß. Zwei weitverbreitete Varianten seien noch erwähnt: Die Umsetzung der Algorithmen in einem konkreten Datenbank-Umfeld, die Reihenfolge der Verarbeitung sowie die Verteilung der Information variieren. Zum Beispiel erweisen sich manche Verfahren bei der Verarbeitung großer Datenmengen (> 1 GB) als zu langsam. Hier haben dann diejenigen Anbieter einen Vorteil, denen es gelingt, durch Vorberechnungen und Verschlankungen des Algorithmus' die Performance zu optimieren. Oder, die Formeln werden variiert. Es wird nicht unmittelbar mit relativen Häufigkeiten gearbeitet, sondern die Quadrate der Häufigkeiten bilden die Gewichtungsgrundlage.

Alternative zum Vektorraum-Modell: Statistische Thesauri

Hier berechnet man im voraus Ähnlichkeiten zwischen Begriffen, die dann bei der Gewichtung von Dokumenten genutzt werden können. Solche automatisch generierten Thesauri werden meist noch durch externe Daten (z.B. Wörterbücher) ergänzt. Diese Systeme ersparen es dem Anwender, etwaige Variationen seiner Suchanfrage einzugeben. Lautet das Suchwort "Computer" so assoziiert der statistische Thesaurus den Begriff "PC" und ein Wörterbuch könnte den Begriff "Rechner" zufügen. So wird insgesamt eine wesentlich größere Zahl von Dokumenten berücksichtigt, insbesondere auch Dokumente, die das eigentliche Suchwort nicht enthalten. Interessant ist die Idee, einzelne Silben und Buchstabenfolgen als Mikro-Syntax zu betrachten und diesen Gewichtungsfaktoren zuzuordnen.

Das Text-Retrieval alleine ermöglicht allerdings noch keine Knowledge Management Funktionalitäten. Sinnvolle Ergänzungen sind die Berücksichtigung von User Profilen sowie die Implementierung von Knowledge Bases. Gerade in diesem Umfeld wird sich ein großer Teil der künftigen Erfindungen bewegen. Neurowissenschaftler wie etwa Ralph Linsker von der IBM-Forschungsabteilung in New York haben Ende der 90er Jahre mathematische Verfahren entwickelt, die die Art und Weise nachbilden, in der natürliche Nervenzellen Informationen austauschen.. Auf der Basis dieser Technologie lassen sich leistungsstarke Suchmaschinen herstellen. Als Verfahren zur Mustererkennung mittels eines "Artificial Neural Device" wird diese Technologie bereits heute vom US-amerikanischen Militär genutzt. Mit der Verfügbarkeit leistungsstarker PCs öffnet sich ein breites Anwendungsfeld im Bereich des Knowledge Management. Gegenüber klassischen neuronalen Netzwerken bieten die neurobiologisch motivierten Netzwerke einen wesentlichen Vorteil: Die Netzwerke müssen nicht trainiert werden. Sie legen völlig autonom die "Bedeutung" von Information fest.

Wissen ist und bleibt subjektiv

Ein assoziativer Rechner, der etwa ein Zeitungsarchiv abbildet (Beispiel: www.waz.de), bildet lediglich die Themen und deren textliche Darstellung durch die Redakteure ab. Das gleiche System führt bei einem anderen Zeitungsarchiv zu völlig anderen internen Wissensrepräsentationen. Eine Finanzzeitung hat eben eine andere Repräsentation von "Bill Clinton" als etwa ein Boulevard-Blatt. Auch der Steuer-Experte des Finanzblatts verwendet explizit ein anderes semantisches Netz als sein Kollege, der über Börsenkurse berichtet. Die Idee eines weltweiten "Semantic Web" übersieht diesen subjektiven Charakter von Information. Jeder Aussagesatz ist eingebettet in eine individuelle Matrix von unausgesprochenen Hypothesen und Erfahrungen. Selbstreferentielle neuronale Netzwerke sind in der Lage, Brücken zwischen verschiedenen Communities zu bauen. Eine erfolgreiche Suche nach Information hat zur Voraussetzung, dass wir uns über das zu findende orientieren, schrittweise Zusammenhänge erlernen. Diese enge Verzahnung zwischen Suchen und Lernen wird häufig übersehen.

Ein Suchender, dessen Suchanfrage "Mannesmann" unter anderem auch mit Artikeln über Vodafone beantwortet wird, wird frustriert sein, wenn er nichts von der Mega-Fusion weiß oder wissen will. Der Mensch, der in der Maschinerie des Knowledge Management steckt, wird unverzichtbar bleiben. Insofern bringen intelligente Suchmaschinen nicht in erster Linie einen Rationalisierungseffekt, sondern eben auch Qualifizierungspower. Erst im Zusammenwirken intelligenter Suchmaschinen und Menschen als Knowledge Broker wird Information zur handelbaren Ware. Der interaktive Umgang mit Informationen fördert nicht nur das Wissen, sondern auch das Verständnis. Dabei unterscheidet sich Verständnis von Wissen durch das vernetzte Denken (siehe dazu: Frederic Vester, Leitmotiv vernetztes Denken, München 1990). Knowledge Management hat offenbar nur teilweise mit Software zu tun. Die Organisation des Umgangs mit Information in den Unternehmen ist der eigentliche kritische Erfolgsfaktor.

Von der Einführung des Buchdrucks durch Gutenberg bis zum autonomen Leser, der durch offene Bibliotheken schreitet, sind Jahrhunderte vergangen. Wie lange will sich eine Volkswirtschaft noch Zeit nehmen, den Produktivfaktor Wissen zu optimieren? Zumal Technologien auf Einführung warten, vor denen kein Mensch Angst haben muss. Das wirklich Neue wäre eine Suchmaschine, in der wir uns mit unserem Verständnis von Informationen und deren Zusammenhängen selbst wiederfinden.


Autor

  • Dr. Klaus Holthausen und Dr. Hartmut Storp

Dr. Klaus Holthausen ist CTO der amenotec GmbH, Bocholt; Dr. Hartmut Storp, Masters of Success, Ahrensburg.



Unsere Experten


alle Experten

Premium Lösungen

Marktübersicht

Premium Services

Dienstleisterübersicht