Die Begriffe Verschlagwortung und Indexierung, beide bekannt aus dem Information Retrieval, verbindet man häufig mit verstaubten Bibliotheken und umfangreichen Archiven. Dort ist in der Regel eine Person, der Bibliothekar, dafür verantwortlich, dass Besucher und Benutzer im riesigen Fundus der Institution die gesuchten Informationen anhand bestimmter Schlagwörter finden. Diese Deskriptoren werden zunächst für einzelne Bücher und danach für die komplette Sammlung in Katalogen zusammengestellt. Anhand dieser Schlagwort-Sammlungen lassen sich einzelne Inhalte der Bibliothek oder des Archivs suchen und finden.
Oder auch nicht – denn wer stellt sicher, dass ein Individuum genau auf die gleiche Art und Weise sucht, wie es der Bibliothekar vorgesehen hat? Wer garantiert, dass die wirklich relevanten Inhalte gefunden werden können?
Im Gegensatz zur freien Indexierung steht heute im Internet die gemeinschaftliche Indexierung, also das social bzw. collaborative Tagging im Vordergrund. Hier heißen die Deskriptoren Tags, und die Schlagwortkataloge Tagclouds. Eine Tagcloud besteht dabei aus den einzelnen Tags, die einer bestimmten Sache zugewiesen worden sind.
Dies kann auf einem Blog eine Art Kategorisierung sein (wie z.B. Kanada), für Bilder beispielsweise eine Art Beschreibung (z.B. Impressionismus). Die Tagcloud fasst nun die vergebenen Tags zusammen und gewichtet sie. Häufiger vorkommende Schlagworte werden größer oder farblich anders dargestellt als solche, die weniger oft vorkommen.
Grundsätzlich gibt es drei unterschiedliche Verschlagwortungsarten und –methoden: Die komplett automatisierte Methode, die Verschlagwortung durch eine Person und die Mischform aus beiden Vorgehensweisen.
Das am häufigsten eingesetzte Verfahren der automatischen Indexierung ist die Erstellung eines Volltextindexes. Bei dieser Art der Verschlagwortung werden bis auf Stoppwörter (z.B. der, die, das, ein, für in, the, or, and, usw.) die Worte aus dem Inhalt des zu indexierenden Dokumentes in den Schlagwort-Katalog aufgenommen, die mit einer bestimmten Häufigkeit im Dokument vorkommen. Dieser Volltextindex wird heute in der Regel bei Suchmaschinen angewendet. Hierfür werden Worte beispielsweise auf ihren Wortstamm zurückgeführt, das sogenannte Stemming (dt. Reduktion).
Im Anschluss daran wird für den Index einer Suchmaschine anhand von statistischen Verfahren die Relevanz der einzelnen Worte im Zusammenhang mit dem Dokument berechnet. So entsteht mit Hilfe von Worthäufigkeit, Termgewichtung und inverser Dokumentenhäufigkeit ein Wert, der in Relation mit anderen Dokumenten gesetzt die Relevanz bestimmt. Je häufiger ein Wort vorkommt, desto höher die Signifikanz.
Die computergestützte Verschlagwortung verhält sich analog zur automatischen Verschlagwortung, indem der Index durch einen Computer erstellt wird. Dabei wird mit Hilfe einer speziellen Indexierungssoftware errechnet, wie relevant Schlagwörter sind und diese Deskriptoren anschließend einem Menschen zur Auswahl präsentiert. Die Nachbearbeitung bzw. die definitive Erstellung des Index geschieht also durch den Menschen oder zumindest durch dessen Einfluss.
Auch genannt intellektuelle Erschließung von Dokumenten, werden bei dieser Indexierungsart dem Inhalt der Dokumente relevante Schlüsselwörter zugewiesen. Wie die Bezeichnung intellektuelle Erschließung schon vermuten lässt, ist für dieses Verfahren die Bekanntheit des Dokumentinhalts sehr wichtig. Aus diesem Grund ist es ebenfalls unerlässlich, für eine gute Verschlagwortung Schlagwörter aus einer Schlagwortnormdatei zu verwenden, um die Genauigkeit der Indexierung zu gewährleisten.
Als exemplarisches Beispiel für die statische Verschlagwortung gilt das Flamenco Such-Projekt der UC Berkeley . Am Beispiel der Nobelpreisgewinner wird hier auf unterschiedlichen Ebenen und in unterschiedlichen Bereichen des Themengebietes verschlagwortet und anschließend die zugrunde liegende Datenbasis durchsuchbar gemacht.
Abbildung 1: Flamenco Schlagwortsuche am Beispiel Nobelpreis
Je nach Anspruch des Suchenden bietet Flamenco die Möglichkeit, aus verschiedensten Sucheinstiegen in die Thematik Nobelpreisträger auszuwählen. Flamenco basiert dabei aber allein auf vergebenen Deskriptoren. Eine dynamische Verschlagwortung mit Tags, die von den Nutzern selbst generiert wurden, kommt nicht vor. Dabei sind gerade die User-Generated Tags in den meisten Social Networks unserer Zeit Basis für eine Suchalternative zur Volltext- oder strukturierten Suche.
© 2012 FEiG & PARTNER