Duplicate Content bändigen: Das neue Canonical-Tag

Duplicate Content ist nach wie vor eine Thematik, die zwar vielleicht hinsichtlich ihrer Auswirkungen überschätzt wird, aber in der Praxis doch immer wieder zu Problemen führt. Suchmaschinen können mittlerweile mit Duplicate Content sehr gut umgehen. Mit dem Canonical-Tag besteht eine neue Möglichkeit, ihnen bei der Erkennung von Duplicate Content unter die Arme zu greifen.

Duplicate Content, also identische oder nahezu identische Seiten mit unterschiedlichen URLs, tritt sehr oft unbeabsichtigt auf. Die folgenden Beispiele zeigen jeweils zwei URLs, die zu denselben Inhalten führen:

Domain mit und ohne „www.“:

http://www.website.de/kjh und

http://website.de/kjh

Die Startseite unter zwei URLs:

http://www.website.de/ und

http://www.website/startseite.html

Dopplung auf Grund von Internationalisierung:

http://www.website.de/ und

http://www.website.de/de/

Tracking-Parameter in URL:

http://www.website.de/ und

http://www.website.de/?source=11

Einige dieser Fälle können Suchmaschinen wie Google sehr gut erkennen, z.B. wenn innerhalb einer Website die beiden URLs http://www.website.de/ und http://www.website.de/index.html verwendet werden. Hier greift die einfache Regel, dass „/“ und „/index.html“ identische Seiten sind (analog „index.htm“, „index.asp“, „index.php“, …).

Andere Fälle sind zumindest nicht einfach anhand einer bekannten Regel zu erkennen. Wie gehen also Suchmaschinen damit um? Eine Suchmaschine wie Google versucht, gleiche Seiten anhand der Inhalte zu identifizieren, diese Seiten zusammenfassen und einen Stellvertreter auszuwählen.

Wenn es also im Google-Index die beiden Seiten http://www.website.de/ und http://www.website.de/de/ gibt, wird sich Google für eine der URLs entscheiden (wahrscheinlich die erste) und die andere nicht in den Suchergebnissen anzeigen.

Wichtig ist dabei auch, dass die interne Gewichtung summiert wird. Suchmaschinen weisen allen Seiten einer Website eine bestimmte Gewichtung zu, die durch die interne und externe Verlinkung entsteht. Dabei hat die Startseite i.d.R. eine sehr hohe Gewichtung, während eine tief in der Website-Struktur versteckte Seite eine sehr niedrige Gewichtung hat.

Wenn nun also mehrere Seiten auf Grund identischer Inhalte zusammengefasst werden und ein Stellvertreter gewählt wird, werden diesem Stellvertreter die summierten Gewichte zugewiesen. Prinzipiell klingt das so gut, dass man sich eigentlich um Duplicate Content keine Sorgen machen müsste – nur leider funktioniert dieser Prozess in der Praxis nicht immer.

Um Suchmaschinen die Entscheidung abzunehmen, welche der doppelten Seiten als Stellvertreter gewählt wird, wurde nun von allen drei großen Suchmaschinen-Betreibern (Google, Yahoo!, MSN) das Canonical- Tag eingeführt.

Dieses Tag, das im Head-Bereich einer Seite steht, gibt dabei die „richtige“ URL einer Seite an:

<link rel=“canonical“ href=“richtige URL“ />

Der prinzipielle Nachteil bei der Nutzung des Canonical- Tags liegt vor allem darin, dass es Duplicate Content nicht wirklich verhindert. Eine Suchmaschine wird i.d.R. die Duplikate indexieren müssen, um sich dann für eine Variante zu entscheiden. Besonders bei großen Websites kann das sehr nachteilig sein, weil dort dann sehr viel Crawler-Kapazität für die Indexierung der doppelten Seiten aufgewendet wird – Kapazität, die vielleicht an anderer Stelle für die Erfassung relevanter Inhalte fehlt.

Das soll aber kein Plädoyer gegen die Nutzung des Canonical-Tags sein. Das Tag ist sinnvoll und kann eigentlich auch nicht fehlerhaft eingesetzt werden. Prinzipiell wäre es sogar zu empfehlen, dieses Tag vorsorglich in alle Seiten einer Website einzubauen und dort jeweils die „richtige“ URL einzutragen – auch wenn i.d.R. dann die URL der Seite und die im Canonical- Tag eingetragene URL exakt übereinstimmen.

Kanonisierung per 301

Wie Matt Cutts von Google in einem Blog-Beitrag betont, ist es wesentlich besser, URLs über den Web-Server zu normalisieren („Far better to […] normalize URLs in the first place“). Dabei sollten alle doppelten URLs per 301-Umleitung auf die richtige URL (Canonical URL) umgeleitet werden („Make all the non-canonical urls do a 301 HTTP redirect to the canonical url“). In der Praxis ist ein solches Vorgehen nicht immer leicht.

Optimal wäre es, dass wenn ein Web-Server eine Anfrage für eine URL wie www.website.de/seite?irrelevanter_tracking_parameter=x bekommt, er diese Seite per 301-Umleitung auf www.website.de/seite umleitet. Falls auf der Seite aber dieser Tracking-Parameter ausgewertet werden muss, wäre das Vorgehen zwar für Suchmaschinen optimal, aber nicht für die Funktion der Website.

Der Web-Server müsste also einfach schauen, von wem die Anfrage kommt: Ein normaler Besucher würde die Seite mit dem Tracking-Parameter in der URL sehen, während ein Suchmaschinen-Crawler umgeleitet würde. Ein solches Vorgehen führt aber zu einer Unterscheidung zwischen Besucher und Crawler und könnte damit im Zweifelsfall als Verstoß gegen die Suchmaschinen-Richtlinien aufgefasst werden. Auch für derartige Fälle gibt es einige Lösungen.

So könnte man die Tracking-Parameter auch als Sprung-Marke übergeben (http://www.website.de/seite#irrelevanter_tracking_parameter=x“). Diesen Parameter könnte ein JavaScript auf der Seite auslesen, während eine Suchmaschine die Sprungmarke einfach aus der URL entfernt.

Auch könnte man alle Seiten, in deren URL ein Tracking-Parameter vorkommt, für Suchmaschinen sperren, z.B. über die robots.txt (in diesem Fall: „Disallow: /*irrelevanter_tracking_parameter*). Diese Lösung hat nur einen kleinen Nachteil, den viele verschmerzen können: Falls eine externe Website auf eine innerhalb der Site gesperrte Seite verlinkt, würde dieser Link nicht zur Link-Popularität der Website beitragen.

Wie man sieht, gibt es viele Lösungswege, für die man sich aber immer anhand des konkreten Falls entscheiden muss. Die einfachste Lösung besteht sicherlich darin, die doppelten Seiten für Suchmaschinen zu sperren, so dass erst überhaupt keine Probleme auftreten können.

Externer Duplicate Content

Das Canonical-Tag hilft übrigens nur bei internem Duplicate Content, also bei doppelten Inhalten auf einer bestimmten Domain. Dabei darf das Canonical-Tag übrigens auch innerhalb von Sub-Domains der gleichen Domain angewendet werden: Auf Seiten der Sub-Domain shop.website.de dürfte also durchaus per Canonical-Tag auf Seiten der Sub-Domain www.website.de verwiesen werden.

Oft gibt es allerdings auch externen Duplicate Content, z.B. wenn ein Artikel nicht nur auf der eigenen Website erscheint, sondern auch auf andere Plattformen syndiziert wird. In diesem Fall empfiehlt sich nach wie vor die Vorgehensweise, dass die Duplikate jeweils auf das Original verlinken sollten – ein Vorgehen, das in der Praxis leider oft nicht möglich ist. Dann bleibt nur noch die Hoffnung, dass Suchmaschinen die zuerst indexierte Version (i.d.R. auf der eigenen Website) und nicht die Dubletten auf fremden Websites als die Seite auswählen, die in den Suchergebnissen erscheint.

Fazit

Das neue Canonical-Tag ist eine gute Hilfe, um innerhalb von Websites die Effekte von internem Duplicate Content zu steuern. Nachteil an diesem Tag ist allerdings die Tatsache, dass hiermit Duplicate Content nicht wirklich verhindert wird. Optimal ist es also nach wie vor, doppelte Inhalte zu vermeiden.