|  |
Tagging, die andere Indexierung des Internets


Die Begriffe Verschlagwortung und Indexierung, beide bekannt aus dem Information Retrieval, verbindet man häufig mit verstaubten Bibliotheken und umfangreichen Archiven. Dort ist in der Regel eine Person, der Bibliothekar, dafür verantwortlich, dass Besucher und Benutzer im riesigen Fundus der Institution die gesuchten Informationen anhand bestimmter Schlagwörter finden. Diese Deskriptoren werden zunächst für einzelne Bücher und danach für die komplette Sammlung in Katalogen zusammengestellt. Anhand dieser Schlagwort-Sammlungen lassen sich einzelne Inhalte der Bibliothek oder des Archivs suchen und finden.
Oder auch nicht – denn wer stellt sicher, dass ein Individuum genau auf die gleiche Art und Weise sucht, wie es der Bibliothekar vorgesehen hat? Wer garantiert, dass die wirklich relevanten Inhalte gefunden werden können?
Im Gegensatz zur freien Indexierung steht heute im Internet die gemeinschaftliche Indexierung, also das social bzw. collaborative Tagging im Vordergrund. Hier heißen die Deskriptoren Tags, und die Schlagwortkataloge Tagclouds. Eine Tagcloud besteht dabei aus den einzelnen Tags, die einer bestimmten Sache zugewiesen worden sind.
Dies kann auf einem Blog eine Art Kategorisierung sein (wie z.B. Kanada), für Bilder beispielsweise eine Art Beschreibung (z.B. Impressionismus). Die Tagcloud fasst nun die vergebenen Tags zusammen und gewichtet sie. Häufiger vorkommende Schlagworte werden größer oder farblich anders dargestellt als solche, die weniger oft vorkommen.
Grundsätzlich gibt es drei unterschiedliche Verschlagwortungsarten und –methoden: Die komplett automatisierte Methode, die Verschlagwortung durch eine Person und die Mischform aus beiden Vorgehensweisen.
Automatische Verschlagwortung
Das am häufigsten eingesetzte Verfahren der automatischen Indexierung ist die Erstellung eines Volltextindexes. Bei dieser Art der Verschlagwortung werden bis auf Stoppwörter (z.B. der, die, das, ein, für in, the, or, and, usw.) die Worte aus dem Inhalt des zu indexierenden Dokumentes in den Schlagwort-Katalog aufgenommen, die mit einer bestimmten Häufigkeit im Dokument vorkommen. Dieser Volltextindex wird heute in der Regel bei Suchmaschinen angewendet. Hierfür werden Worte beispielsweise auf ihren Wortstamm zurückgeführt, das sogenannte Stemming (dt. Reduktion).
Im Anschluss daran wird für den Index einer Suchmaschine anhand von statistischen Verfahren die Relevanz der einzelnen Worte im Zusammenhang mit dem Dokument berechnet. So entsteht mit Hilfe von Worthäufigkeit, Termgewichtung und inverser Dokumentenhäufigkeit ein Wert, der in Relation mit anderen Dokumenten gesetzt die Relevanz bestimmt. Je häufiger ein Wort vorkommt, desto höher die Signifikanz.
Computergestützte Verschlagwortung
Die computergestützte Verschlagwortung verhält sich analog zur automatischen Verschlagwortung, indem der Index durch einen Computer erstellt wird. Dabei wird mit Hilfe einer speziellen Indexierungssoftware errechnet, wie relevant Schlagwörter sind und diese Deskriptoren anschließend einem Menschen zur Auswahl präsentiert. Die Nachbearbeitung bzw. die definitive Erstellung des Index geschieht also durch den Menschen oder zumindest durch dessen Einfluss.
Manuelle Verschlagwortung
Auch genannt intellektuelle Erschließung von Dokumenten, werden bei dieser Indexierungsart dem Inhalt der Dokumente relevante Schlüsselwörter zugewiesen. Wie die Bezeichnung intellektuelle Erschließung schon vermuten lässt, ist für dieses Verfahren die Bekanntheit des Dokumentinhalts sehr wichtig. Aus diesem Grund ist es ebenfalls unerlässlich, für eine gute Verschlagwortung Schlagwörter aus einer Schlagwortnormdatei zu verwenden, um die Genauigkeit der Indexierung zu gewährleisten.
Beispiel: Such-Projekt "Flamenco"
Als exemplarisches Beispiel für die statische Verschlagwortung gilt das Flamenco Such-Projekt der UC Berkeley.
Am Beispiel der Nobelpreisgewinner wird hier auf unterschiedlichen Ebenen und in unterschiedlichen Bereichen des Themengebietes verschlagwortet und anschließend die zugrunde liegende Datenbasis durchsuchbar gemacht.
Abbildung 1: Flamenco Schlagwortsuche am Beispiel Nobelpreis
Je nach Anspruch des Suchenden bietet Flamenco die Möglichkeit, aus verschiedensten Sucheinstiegen in die Thematik Nobelpreisträger auszuwählen. Flamenco basiert dabei aber allein auf vergebenen Deskriptoren. Eine dynamische Verschlagwortung mit Tags, die von den Nutzern selbst generiert wurden, kommt nicht vor. Dabei sind gerade die User-Generated Tags in den meisten Social Networks unserer Zeit Basis für eine Suchalternative zur Volltext- oder strukturierten Suche.
Lesen Sie das nächste Kapitel
|  |  | weiter |  |
10/2007, Markus Tressl


|  | Markus Tressl ist Senior Consultant bei der Namics AG in St. Gallen. Neben seiner Tätigkeit als technischer Berater ist er 'Certified Google Enterprise Professional' und setzt sich intensiv mit der Thematik Suchen und Finden auseinander.
Mehr Informationen zu Namics AG
|

Kommentare zu diesem Beitrag 
|  |  |

Weitere Beiträge zu diesem Thema
|  |  |
 |  |  | Welche Rolle spielt PostNuke innerhalb einer ständig wachsenden Zahl ähnlicher Systeme? Ist da noch Platz für diesen älteren "Saurier"... |  |  |  | Prinzipiell ist es sehr wichtig, dass diese Links von relevanten, thematisch passenden Websites kommen. Aber selbst wenn das sichergestellt ist, gibt es noch genügend Stolpersteine... |  |  |  | dante cms ist ein datenbankbasierendes, hochskalierbares Content Management System. Es kann gleichermaßen als Internetportal und als unternehmensweites Intranet eingesetzt werden... |  |  |  | Für viele Leute ist Google einfach eine Suchmaschine im Internet. Für manche sogar die (!) Suchmaschine im Internet. Aber das fasst nicht das ganze Potenzial, welche sich mittlerweile hinter Google verbirgt... |  |  |  | Das Mobile Web, also der Zugriff auf das Internet über Handys/Smartphones, rückt in den Mittelpunkt des Interesses - zumindest wenn man aktuellen Studien glauben mag... |  |
Beiträge aus anderen Themenbereichen
|  |  |
 |  |  | Im Interview spricht der Schirmherr der Initiative Prof. Dieter Spath über "Das Konstruktionsbüro für Dienstleistungen" und vieles mehr. Am 12. Oktober eröffnet Prof. Dieter Spath den VOICE Days plus Kongress... |  |  |  | Die Gestattung der privaten Nutzung der betriebseigenen IT-Infrastruktur durch die Mitarbeiter bringt nicht zu unterschätzende rechtliche Komplikationen mit sich – gerade was auch die Archivierung von E-Mails anbelangt... |  |  |  | Datenschutz spielt auch im eCommerce eine große Rolle. So müssen z.B. für den Betrieb eines Onlineshops die gesetzlichen Vorschriften zum Datenschutz eingehalten werden... |  |
|  | |  |