Tagging, die andere Indexierung des Internets

DruckversionAls E-Mail versendenZum Magazin-Forum

Kapitel:



Die Begriffe Verschlagwortung und Indexierung, beide bekannt aus dem Information Retrieval, verbindet man häufig mit verstaubten Bibliotheken und umfangreichen Archiven. Dort ist in der Regel eine Person, der Bibliothekar, dafür verantwortlich, dass Besucher und Benutzer im riesigen Fundus der Institution die gesuchten Informationen anhand bestimmter Schlagwörter finden. Diese Deskriptoren werden zunächst für einzelne Bücher und danach für die komplette Sammlung in Katalogen zusammengestellt. Anhand dieser Schlagwort-Sammlungen lassen sich einzelne Inhalte der Bibliothek oder des Archivs suchen und finden.

Oder auch nicht – denn wer stellt sicher, dass ein Individuum genau auf die gleiche Art und Weise sucht, wie es der Bibliothekar vorgesehen hat? Wer garantiert, dass die wirklich relevanten Inhalte gefunden werden können?

Im Gegensatz zur freien Indexierung steht heute im Internet die gemeinschaftliche Indexierung, also das social bzw. collaborative Tagging im Vordergrund. Hier heißen die Deskriptoren Tags, und die Schlagwortkataloge Tagclouds. Eine Tagcloud besteht dabei aus den einzelnen Tags, die einer bestimmten Sache zugewiesen worden sind.

Dies kann auf einem Blog eine Art Kategorisierung sein (wie z.B. Kanada), für Bilder beispielsweise eine Art Beschreibung (z.B. Impressionismus). Die Tagcloud fasst nun die vergebenen Tags zusammen und gewichtet sie. Häufiger vorkommende Schlagworte werden größer oder farblich anders dargestellt als solche, die weniger oft vorkommen.

Grundsätzlich gibt es drei unterschiedliche Verschlagwortungsarten und –methoden: Die komplett automatisierte Methode, die Verschlagwortung durch eine Person und die Mischform aus beiden Vorgehensweisen.


Automatische Verschlagwortung

Das am häufigsten eingesetzte Verfahren der automatischen Indexierung ist die Erstellung eines Volltextindexes. Bei dieser Art der Verschlagwortung werden bis auf Stoppwörter (z.B. der, die, das, ein, für in, the, or, and, usw.) die Worte aus dem Inhalt des zu indexierenden Dokumentes in den Schlagwort-Katalog aufgenommen, die mit einer bestimmten Häufigkeit im Dokument vorkommen. Dieser Volltextindex wird heute in der Regel bei Suchmaschinen angewendet. Hierfür werden Worte beispielsweise auf ihren Wortstamm zurückgeführt, das sogenannte Stemming (dt. Reduktion).

Im Anschluss daran wird für den Index einer Suchmaschine anhand von statistischen Verfahren die Relevanz der einzelnen Worte im Zusammenhang mit dem Dokument berechnet. So entsteht mit Hilfe von Worthäufigkeit, Termgewichtung und inverser Dokumentenhäufigkeit ein Wert, der in Relation mit anderen Dokumenten gesetzt die Relevanz bestimmt. Je häufiger ein Wort vorkommt, desto höher die Signifikanz.


Computergestützte Verschlagwortung

Die computergestützte Verschlagwortung verhält sich analog zur automatischen Verschlagwortung, indem der Index durch einen Computer erstellt wird. Dabei wird mit Hilfe einer speziellen Indexierungssoftware errechnet, wie relevant Schlagwörter sind und diese Deskriptoren anschließend einem Menschen zur Auswahl präsentiert. Die Nachbearbeitung bzw. die definitive Erstellung des Index geschieht also durch den Menschen oder zumindest durch dessen Einfluss.


Manuelle Verschlagwortung

Auch genannt intellektuelle Erschließung von Dokumenten, werden bei dieser Indexierungsart dem Inhalt der Dokumente relevante Schlüsselwörter zugewiesen. Wie die Bezeichnung intellektuelle Erschließung schon vermuten lässt, ist für dieses Verfahren die Bekanntheit des Dokumentinhalts sehr wichtig. Aus diesem Grund ist es ebenfalls unerlässlich, für eine gute Verschlagwortung Schlagwörter aus einer Schlagwortnormdatei zu verwenden, um die Genauigkeit der Indexierung zu gewährleisten.


Beispiel: Such-Projekt "Flamenco"

Als exemplarisches Beispiel für die statische Verschlagwortung gilt das Flamenco Such-Projekt der UC Berkeley. Am Beispiel der Nobelpreisgewinner wird hier auf unterschiedlichen Ebenen und in unterschiedlichen Bereichen des Themengebietes verschlagwortet und anschließend die zugrunde liegende Datenbasis durchsuchbar gemacht.

Abbildung 1: Flamenco Schlagwortsuche am Beispiel Nobelpreis


Je nach Anspruch des Suchenden bietet Flamenco die Möglichkeit, aus verschiedensten Sucheinstiegen in die Thematik Nobelpreisträger auszuwählen. Flamenco basiert dabei aber allein auf vergebenen Deskriptoren. Eine dynamische Verschlagwortung mit Tags, die von den Nutzern selbst generiert wurden, kommt nicht vor. Dabei sind gerade die User-Generated Tags in den meisten Social Networks unserer Zeit Basis für eine Suchalternative zur Volltext- oder strukturierten Suche.


Lesen Sie das nächste Kapitel

weiter
 1: Verschlagwortung im Internet

10/2007, Markus Tressl





Markus Tressl ist Senior Consultant bei der Namics AG in St. Gallen. Neben seiner Tätigkeit als technischer Berater ist er 'Certified Google Enterprise Professional' und setzt sich intensiv mit der Thematik Suchen und Finden auseinander.

Mehr Informationen zu Namics AG


Kommentare zu diesem Beitrag 


Schreiben Sie einen Kommentar zu diesem Beitrag

Newsletter abonnieren

Verpassen Sie nichts und bleiben Sie informiert mit unserem Newsletter.
Ihre E-Mail Adresse:  
RSS-Feed: Alle News aktuellUnsere News auf Ihrer Website

Weitere Beiträge zu diesem Thema

Quo vadis PostNuke? Zu den Perspektiven eines OpenSource WCMS
Welche Rolle spielt PostNuke innerhalb einer ständig wachsenden Zahl ähnlicher Systeme? Ist da noch Platz für diesen älteren "Saurier"...
Ein Link ist ein Link ist ein Link – Qualitätsfaktoren für Links
Prinzipiell ist es sehr wichtig, dass diese Links von relevanten, thematisch passenden Websites kommen. Aber selbst wenn das sichergestellt ist, gibt es noch genügend Stolpersteine...
Systemvorstellung: dante cms im Überblick
dante cms ist ein datenbankbasierendes, hochskalierbares Content Management System. Es kann gleichermaßen als Internetportal und als unternehmensweites Intranet eingesetzt werden...
Das Google Web API
Für viele Leute ist Google einfach eine Suchmaschine im Internet. Für manche sogar die (!) Suchmaschine im Internet. Aber das fasst nicht das ganze Potenzial, welche sich mittlerweile hinter Google verbirgt...
Marketing wird mobil: Suchmaschinen-Optimierung für das Mobile Web
Das Mobile Web, also der Zugriff auf das Internet über Handys/Smartphones, rückt in den Mittelpunkt des Interesses - zumindest wenn man aktuellen Studien glauben mag...

Beiträge aus anderen Themenbereichen

VOICE Days plus: Deutschlands Servicewelt im Fokus
Im Interview spricht der Schirmherr der Initiative Prof. Dieter Spath über "Das Konstruktionsbüro für Dienstleistungen" und vieles mehr. Am 12. Oktober eröffnet Prof. Dieter Spath den VOICE Days plus Kongress...
Lösungsmöglichkeiten zum Konflikt der E-Mail-Archivierung mit Fernmeldegeheimnis und Datenschutz
Die Gestattung der privaten Nutzung der betriebseigenen IT-Infrastruktur durch die Mitarbeiter bringt nicht zu unterschätzende rechtliche Komplikationen mit sich – gerade was auch die Archivierung von E-Mails anbelangt...
eCommerce & Datenschutz - Das sollten Sie wissen
Datenschutz spielt auch im eCommerce eine große Rolle. So müssen z.B. für den Betrieb eines Onlineshops die gesetzlichen Vorschriften zum Datenschutz eingehalten werden...

Escortservice
Das Content Management PortalDas Dokumenten Management PortalDas IT-Security PortalDas Customer Relationship Management PortalDas E-Commerce PortalDas Enterprise Resource Planning PortalPortal für VoIP und mobile KommunikationDas Magazin für IT im KrankenhausDas Verzeichnis für IT-Profis
homeimpressumerklärung zum datenschutz - privacy policykontaktwerbung

know how

news

veranstaltungen

Schnellsuche