Tagging, die andere Indexierung des Internets

http://www.contentmanager.de/magazin/artikel_1617_tagging_tag_verschlagwortung_indexierung.html

Die Begriffe Verschlagwortung und Indexierung, beide bekannt aus dem Information Retrieval, verbindet man häufig mit verstaubten Bibliotheken und umfangreichen Archiven. Dort ist in der Regel eine Person, der Bibliothekar, dafür verantwortlich, dass Besucher und Benutzer im riesigen Fundus der Institution die gesuchten Informationen anhand bestimmter Schlagwörter finden. Diese Deskriptoren werden zunächst für einzelne Bücher und danach für die komplette Sammlung in Katalogen zusammengestellt. Anhand dieser Schlagwort-Sammlungen lassen sich einzelne Inhalte der Bibliothek oder des Archivs suchen und finden.

Oder auch nicht – denn wer stellt sicher, dass ein Individuum genau auf die gleiche Art und Weise sucht, wie es der Bibliothekar vorgesehen hat? Wer garantiert, dass die wirklich relevanten Inhalte gefunden werden können?

Im Gegensatz zur freien Indexierung steht heute im Internet die gemeinschaftliche Indexierung, also das social bzw. collaborative Tagging im Vordergrund. Hier heißen die Deskriptoren Tags, und die Schlagwortkataloge Tagclouds. Eine Tagcloud besteht dabei aus den einzelnen Tags, die einer bestimmten Sache zugewiesen worden sind.

Dies kann auf einem Blog eine Art Kategorisierung sein (wie z.B. Kanada), für Bilder beispielsweise eine Art Beschreibung (z.B. Impressionismus). Die Tagcloud fasst nun die vergebenen Tags zusammen und gewichtet sie. Häufiger vorkommende Schlagworte werden größer oder farblich anders dargestellt als solche, die weniger oft vorkommen.

Grundsätzlich gibt es drei unterschiedliche Verschlagwortungsarten und –methoden: Die komplett automatisierte Methode, die Verschlagwortung durch eine Person und die Mischform aus beiden Vorgehensweisen.


Automatische Verschlagwortung

Das am häufigsten eingesetzte Verfahren der automatischen Indexierung ist die Erstellung eines Volltextindexes. Bei dieser Art der Verschlagwortung werden bis auf Stoppwörter (z.B. der, die, das, ein, für in, the, or, and, usw.) die Worte aus dem Inhalt des zu indexierenden Dokumentes in den Schlagwort-Katalog aufgenommen, die mit einer bestimmten Häufigkeit im Dokument vorkommen. Dieser Volltextindex wird heute in der Regel bei Suchmaschinen angewendet. Hierfür werden Worte beispielsweise auf ihren Wortstamm zurückgeführt, das sogenannte Stemming (dt. Reduktion).

Im Anschluss daran wird für den Index einer Suchmaschine anhand von statistischen Verfahren die Relevanz der einzelnen Worte im Zusammenhang mit dem Dokument berechnet. So entsteht mit Hilfe von Worthäufigkeit, Termgewichtung und inverser Dokumentenhäufigkeit ein Wert, der in Relation mit anderen Dokumenten gesetzt die Relevanz bestimmt. Je häufiger ein Wort vorkommt, desto höher die Signifikanz.


Computergestützte Verschlagwortung

Die computergestützte Verschlagwortung verhält sich analog zur automatischen Verschlagwortung, indem der Index durch einen Computer erstellt wird. Dabei wird mit Hilfe einer speziellen Indexierungssoftware errechnet, wie relevant Schlagwörter sind und diese Deskriptoren anschließend einem Menschen zur Auswahl präsentiert. Die Nachbearbeitung bzw. die definitive Erstellung des Index geschieht also durch den Menschen oder zumindest durch dessen Einfluss.


Manuelle Verschlagwortung

Auch genannt intellektuelle Erschließung von Dokumenten, werden bei dieser Indexierungsart dem Inhalt der Dokumente relevante Schlüsselwörter zugewiesen. Wie die Bezeichnung intellektuelle Erschließung schon vermuten lässt, ist für dieses Verfahren die Bekanntheit des Dokumentinhalts sehr wichtig. Aus diesem Grund ist es ebenfalls unerlässlich, für eine gute Verschlagwortung Schlagwörter aus einer Schlagwortnormdatei zu verwenden, um die Genauigkeit der Indexierung zu gewährleisten.


Beispiel: Such-Projekt "Flamenco"

Als exemplarisches Beispiel für die statische Verschlagwortung gilt das Flamenco Such-Projekt der UC Berkeley. Am Beispiel der Nobelpreisgewinner wird hier auf unterschiedlichen Ebenen und in unterschiedlichen Bereichen des Themengebietes verschlagwortet und anschließend die zugrunde liegende Datenbasis durchsuchbar gemacht.

Abbildung 1: Flamenco Schlagwortsuche am Beispiel Nobelpreis


Je nach Anspruch des Suchenden bietet Flamenco die Möglichkeit, aus verschiedensten Sucheinstiegen in die Thematik Nobelpreisträger auszuwählen. Flamenco basiert dabei aber allein auf vergebenen Deskriptoren. Eine dynamische Verschlagwortung mit Tags, die von den Nutzern selbst generiert wurden, kommt nicht vor. Dabei sind gerade die User-Generated Tags in den meisten Social Networks unserer Zeit Basis für eine Suchalternative zur Volltext- oder strukturierten Suche.


Verschlagwortung im Internet

Verschlagwortung im Internet

Im heutigen Web 2.0 dreht sich alles um die Verschlagwortung von Inhalten, dem Tagging oder Labeling. Waren in der Vergangenheit noch die Meta-Informationen eines Web-Dokuments wichtig für einen Teil der Relevanz, so sind es heute in Zeiten von User-Generated Content die Tags und Labels, welche helfen, ein Dokument wieder zu finden und zu kategorisieren. Denn die Interaktivität des Internets, in der jeder Nutzer für Inhalte sorgen kann und die Menge an Informationen nicht mehr greifbar ist, erfordert eine neue Art der Verschlagwortung, als es die bisher statischen Meta-Informationen eines Dokuments zulassen.

So bieten die vom W3C vorgeschlagenen Meta Tags, und im speziellen das Tag "keyword", dem Dokument-Besitzer zwar die Möglichkeit, seinen Inhalt zu klassifizieren. Jedoch sind diese Meta Keywords für den suchenden Nutzer nicht sichtbar und deshalb, wie bereits erwähnt, eher für die Relevanz innerhalb der Suchmaschinen interessant.

Heute können Content-Owner noch immer die eigenen Inhalte mit Meta Keywords versehen. Zusätzlich besteht jedoch die Möglichkeit, explizit zusätzliche Schlagworte für den Inhalt zur Verfügung zu stellen, welche aus Sicht des Content-Owners den Inhalt am besten beschreiben. Diese Tags sind für den Besucher ein Hinweis, mit welcher Art von Inhalt er sich auseinander setzt.


Beispiel: Tagging im Internet

Ein Autohersteller veröffentlicht eine Pressemitteilung oder ein Video im Internet über ein neues Auto-Modell. Zum eigentlichen Inhalt des Dokuments fügt er zusätzlich noch die Tags (bzw. Schlagworte)"Auto, Umwelt, Hybrid, Green, Technology " hinzu. Aus seiner Sicht soll das Dokument unter genau diesen Deskriptoren gefunden werden.

Abbildung 2: Pressemitteilung zu einem neuen Auto


Nun finden Leser der Herstellerseite das oben beschriebene Dokument. Da es sich um eine Neuheit handelt und er sich für die Thematik interessiert möchte Leser A das Dokument gerne in seinen Bookmarks bei Del.icio.us speichern. Beim Speichern werden ihm durch das System die vom Verfasser definierten Tags vorgeschlagen, er entscheidet sich jedoch zusätzlich zu den Deskriptoren Green und Technology für eine ganze Serie anderer Tags, da für ihn das umweltfreundliche Auto primär ein Trend und eine Innovation ist und so der Globalen Erwärmung entgegengewirkt werden kann.

Leser B hingegen findet die Pressemitteilung und deren Inhalt so spannend, dass er darüber in seinem Blog berichten möchte. Seinen Blogbeitrag speichert er mit den Technorati Tags Green und Technology (die vorgegebenen), zusätzlich aber auch mit den Tags Cool, Fahrzeug und Brennstoffzelle.

Abbildung 3: Tagging durch Leser, die Deskriptoren werden erweitert


Die Abbildung zeigt, dass die Deskriptoren bzw. Schlagworte für das Dokument bereits weitläufiger sind als durch den Hersteller selbst definiert. Die Reichweite hinsichtlich einer Suche ist ebenso wie die Schlagworte um ein Vielfaches gestiegen.

Führt man das Szenario weiter, gibt es nun einen Benutzer C, welcher ein RSS-Abo auf den Technorati-Tag "Brennstoffzelle" hat. Ebenso könnte dieser Benutzer auch eine Suche bei Technorati mit dem Begriff "Brennstoffzelle" durchführen.

Ein anderer Benutzer D von Del.icio.us sucht in den gespeicherten Bookmarks der anderen Nutzer nach den Schlagworten "Treibstoff Effizienz".

Abbildung 4: Unterschiedliche Suchen, Inhalt wird gefunden


Beide Benutzer C und D finden das Dokument vom Autohersteller bzw. die Referenz darauf von den Benutzern A und B. Jedoch finden es beide nicht aufgrund der durch den Hersteller angegebenen Schlagworte oder Meta Keywords, sondern aufgrund der Tags, die von anderen Usern generiert wurden und dasselbe Objekt beschreiben. In nur einem Schritt, von Hersteller zu User, sind die User-Generated Tags bereits wesentlich weitläufiger als die ursprünglichen Vorgaben.

Lässt man die automatische Verschlagwortung, wie sie Volltext-Suchmaschinen einsetzen, außen vor, stehen heute im Web 2.0 vor allem die manuelle und die computergestützte Verschlagwortung im Vordergrund. Die oben beschriebenen Benutzer A und B setzen auf die manuelle Indexierung mit Hilfe von Tags oder Labels. Diese Art der Informationsordnung, gepaart mit computergestützter Indexierung, findet man heute häufig in den Social Networks.

Und hier ist es egal, ob es sich um Links wie bei Del.icio.us, Blogposts bei Technorati, Menschen-Profile bei Spock, der Google Bildersuche oder Bilder bei Flickr handelt: Im Social Network kann ein Wort oder Bild für fünf unterschiedliche Personen fünf unterschiedliche Inhalte bedeuten. Ein Bild mit einem Sonnenaufgang über dem Bodensee aus der Küche des Fotografen kann beispielsweise die Bedeutung Sonne, See, Wasser, Natur, zu Hause und vieles mehr haben. Erst die Partizipation der einzelnen Nutzer bringt heute die Indexierung der Datenmassen und den großen Erfolg im Internet.


Fazit

Egal ob Index, Deskriptor, Schlagwort, Tag, Label oder Tagcloud – alle Begriffe stehen dafür, dass ein Benutzer mehr und besser findet. Die heutige Masse an Informationen erfordert eine Sortierung bzw. Ordnung, der in den meisten Fällen nur der Mensch oder noch besser die grosse Masse der Nutzer eine ordnende Hand geben kann.

Social Tagging hilft dabei, den Blick auf das Wesentliche zu öffnen und durch mehrere Meinungen und Ansichten eine noch bessere Indexierung zu erreichen. Und so profitiert jeder Nutzer.

Erschienen: 10/2007
Autor: Markus Tressl




Markus Tressl ist Senior Consultant bei der Namics AG in St. Gallen. Neben seiner Tätigkeit als technischer Berater ist er 'Certified Google Enterprise Professional' und setzt sich intensiv mit der Thematik Suchen und Finden auseinander.

Namics AG