Tagging, die andere Indexierung des Internets


02.10.2007

Die Begriffe Verschlagwortung und Indexierung, beide bekannt aus dem Information Retrieval, verbindet man häufig mit verstaubten Bibliotheken und umfangreichen Archiven. Dort ist in der Regel eine Person, der Bibliothekar, dafür verantwortlich, dass Besucher und Benutzer im riesigen Fundus der Institution die gesuchten Informationen anhand bestimmter Schlagwörter finden. Diese Deskriptoren werden zunächst für einzelne Bücher und danach für die komplette Sammlung in Katalogen zusammengestellt. Anhand dieser Schlagwort-Sammlungen lassen sich einzelne Inhalte der Bibliothek oder des Archivs suchen und finden.

Oder auch nicht – denn wer stellt sicher, dass ein Individuum genau auf die gleiche Art und Weise sucht, wie es der Bibliothekar vorgesehen hat? Wer garantiert, dass die wirklich relevanten Inhalte gefunden werden können?

Im Gegensatz zur freien Indexierung steht heute im Internet die gemeinschaftliche Indexierung, also das social bzw. collaborative Tagging im Vordergrund. Hier heißen die Deskriptoren Tags, und die Schlagwortkataloge Tagclouds. Eine Tagcloud besteht dabei aus den einzelnen Tags, die einer bestimmten Sache zugewiesen worden sind.

Dies kann auf einem Blog eine Art Kategorisierung sein (wie z.B. Kanada), für Bilder beispielsweise eine Art Beschreibung (z.B. Impressionismus). Die Tagcloud fasst nun die vergebenen Tags zusammen und gewichtet sie. Häufiger vorkommende Schlagworte werden größer oder farblich anders dargestellt als solche, die weniger oft vorkommen.

Grundsätzlich gibt es drei unterschiedliche Verschlagwortungsarten und –methoden: Die komplett automatisierte Methode, die Verschlagwortung durch eine Person und die Mischform aus beiden Vorgehensweisen.

Automatische Verschlagwortung

Das am häufigsten eingesetzte Verfahren der automatischen Indexierung ist die Erstellung eines Volltextindexes. Bei dieser Art der Verschlagwortung werden bis auf Stoppwörter (z.B. der, die, das, ein, für in, the, or, and, usw.) die Worte aus dem Inhalt des zu indexierenden Dokumentes in den Schlagwort-Katalog aufgenommen, die mit einer bestimmten Häufigkeit im Dokument vorkommen. Dieser Volltextindex wird heute in der Regel bei Suchmaschinen angewendet. Hierfür werden Worte beispielsweise auf ihren Wortstamm zurückgeführt, das sogenannte Stemming (dt. Reduktion).

Im Anschluss daran wird für den Index einer Suchmaschine anhand von statistischen Verfahren die Relevanz der einzelnen Worte im Zusammenhang mit dem Dokument berechnet. So entsteht mit Hilfe von Worthäufigkeit, Termgewichtung und inverser Dokumentenhäufigkeit ein Wert, der in Relation mit anderen Dokumenten gesetzt die Relevanz bestimmt. Je häufiger ein Wort vorkommt, desto höher die Signifikanz.

Computergestützte Verschlagwortung

Die computergestützte Verschlagwortung verhält sich analog zur automatischen Verschlagwortung, indem der Index durch einen Computer erstellt wird. Dabei wird mit Hilfe einer speziellen Indexierungssoftware errechnet, wie relevant Schlagwörter sind und diese Deskriptoren anschließend einem Menschen zur Auswahl präsentiert. Die Nachbearbeitung bzw. die definitive Erstellung des Index geschieht also durch den Menschen oder zumindest durch dessen Einfluss.

Manuelle Verschlagwortung

Auch genannt intellektuelle Erschließung von Dokumenten, werden bei dieser Indexierungsart dem Inhalt der Dokumente relevante Schlüsselwörter zugewiesen. Wie die Bezeichnung intellektuelle Erschließung schon vermuten lässt, ist für dieses Verfahren die Bekanntheit des Dokumentinhalts sehr wichtig. Aus diesem Grund ist es ebenfalls unerlässlich, für eine gute Verschlagwortung Schlagwörter aus einer Schlagwortnormdatei zu verwenden, um die Genauigkeit der Indexierung zu gewährleisten.

Beispiel: Such-Projekt "Flamenco"

Als exemplarisches Beispiel für die statische Verschlagwortung gilt das Flamenco Such-Projekt der UC Berkeley . Am Beispiel der Nobelpreisgewinner wird hier auf unterschiedlichen Ebenen und in unterschiedlichen Bereichen des Themengebietes verschlagwortet und anschließend die zugrunde liegende Datenbasis durchsuchbar gemacht.

Abbildung 1: Flamenco Schlagwortsuche am Beispiel Nobelpreis

Je nach Anspruch des Suchenden bietet Flamenco die Möglichkeit, aus verschiedensten Sucheinstiegen in die Thematik Nobelpreisträger auszuwählen. Flamenco basiert dabei aber allein auf vergebenen Deskriptoren. Eine dynamische Verschlagwortung mit Tags, die von den Nutzern selbst generiert wurden, kommt nicht vor. Dabei sind gerade die User-Generated Tags in den meisten Social Networks unserer Zeit Basis für eine Suchalternative zur Volltext- oder strukturierten Suche.




Autor

  • Markus Tressl

    Namics AG

Markus Tressl ist Senior Consultant bei der Namics AG in St. Gallen. Neben seiner Tätigkeit als technischer Berater ist er 'Certified Google Enterprise Professional' und setzt sich intensiv mit der Thematik Suchen und Finden auseinander.



Partner

Namics ist ein führender Webdienstleister in der Schweiz mit starker Präsenz in Deutschland. In St. Gallen, Zürich, Frankfurt, Hamburg und München bieten über 300 Mitarbeiter das gesamte Spektrum an hochwertigen, professionellen Services für E-Business un

zum Partnerprofil


Unsere Experten


alle Experten

Premium Lösungen

Marktübersicht

Premium Services

Dienstleisterübersicht