Duplicate Content – Best Practice bei dupliziertem Inhalt

Anfang Dezember letzten Jahres wurden auf der Search Engine Strategies Konferenz im kalten Chicago viele von uns Googlern auf Duplicate Content angesprochen. Da wir uns bewusst sind, dass dies ein facettenreiches und auch ein wenig verwirrendes Thema ist, wollen wir dazu beitragen, einige Unklarheiten zu beseitigen.

Was ist Duplicate Content?

Als Duplicate Content werden üblicherweise Contentbereiche bezeichnet, die anderem Content - domainintern oder domainübergreifend - entweder genau gleichen oder diesem deutlich ähnlich sind. Meistens ist dies unbeabsichtigt oder zumindest kein böser Wille: Foren, die sowohl reguläre als auch für Handys optimierte Seiten generieren, Artikel in Onlineshops, die unter mehreren URLs gelistet (und – schlimmer noch – verlinkt) werden, usw. In manchen Fällen wird versucht, Content domainübergreifend zu duplizieren, um Suchergebnisse zu manipulieren oder um mehr Traffic mittels populärer oder „long-tail“ Suchanfragen zu generieren.

Was ist kein Duplicate Content?

Obwohl wir ein praktisches Übersetzungs-Tool anbieten, sehen unsere Algorithmen es nicht als Duplicate Content an, wenn der gleiche Artikel sowohl auf Englisch als auch auf Spanisch zur Verfügung steht. Ebenso müsst ihr euch keine Sorgen machen, dass gelegentlich auftretende doppelte Snippets (Zitate etc.) als Duplicate Content angesehen werden.

Warum ist Duplicate Content ein Thema für Google?

Unsere User wollen gewöhnlich einen vielfältigen Querschnitt an einzigartigem Content für ihre Suchanfragen erhalten. Sie sind verständlicherweise verärgert, wenn sie im Wesentlichen den gleichen Content innerhalb der Suchergebnisse sehen. Außerdem stört es Webmaster, wenn wir eine komplexe URL (example.com/contentredir?value=shorty-george〈=en) anstatt der von ihnen bevorzugten schönen URL zeigen (example.com/en/shorty-george.htm).

Was macht Google mit Duplicate Content?

Während des Crawlens und bei der Ausgabe von Suchergebnissen achten wir sehr darauf, Seiten mit verschiedener Information zu indexieren und anzuzeigen. Wenn es z. B. auf eurer Website sowohl eine reguläre Version als auch eine Druckansicht für Artikel gibt, von denen keine durch robots.txt oder mittels eines noindex-Metatags blockiert wird, dann suchen wir uns aus, welche Version wir listen. In seltenen Fällen steht hinter Duplicate Content die Absicht, unsere Rankings zu manipulieren und unsere User zu täuschen. Falls wir dies feststellen, nehmen wir entsprechende Anpassungen der Indizierung und des Rankings der beteiligten Websites vor. Wir konzentrieren uns jedoch lieber auf das Filtern als auf Anpassungen des Rankings … überwiegend ist also das „Schlimmste“, was Webmastern passieren kann, das Auftauchen der „weniger erwünschten“ Version einer Seite in unserem Index.

Wie können Webmaster Probleme mit Duplicate Content vermeiden?

  • Richtig blockieren: Anstatt unsere Algorithmen bestimmen zu lassen, welches die „beste“ Version eines Dokuments ist, könnt ihr uns bei der Auswahl der von euch bevorzugten Version helfen. Wenn ihr beispielsweise nicht möchtet, dass wir die Druckansichten eurer Artikel indexieren, dann setzt ein Disallow für die entsprechenden Verzeichnisse oder verwendet reguläre Ausdrücke in der robots.txt-Datei.
  • 301 Redirects nutzen: Wenn ihr eine Website umstrukturiert habt, nutzt 301 Redirects ("RedirectPermanent") in eurer .htaccess-Datei, um User, den Googlebot und andere Spider elegant weiterzuleiten.
  • Konsistenz: Bemüht euch darum, bei der internen Verlinkung einheitlich zu bleiben; linkt nicht zu /page/ , /page und /page/index.htm.
  • TLDs nutzen: Wann immer es möglich ist, nutzt Top Level Domains für landesspezifische Inhalte, um uns dabei zu helfen, die passendste Version eines Dokuments anzuzeigen. Wir gehen davon aus, dass .de eher auf Content für den deutschen Markt hinweist als z. B. /de oder de.example.com.
  • Beim „syndicaten“ achtgeben: Wenn ihr Content auf anderen Websites mittels Feeds zur Verfügung stellt, dann achtet darauf, dass immer ein Backlink zum Original-Artikel vorhanden ist. Seid euch auch dann bewusst, dass wir stets diejenige (nicht blockierte) Version anzeigen, die wir als am besten geeignet für die jeweilige Suchanfrage unserer User erachten. Dies kann, muss aber nicht mit der von euch bevorzugten Version übereinstimmen.
  • Das „Bevorzugte Domain“-Feature der Webmaster-Tools nutzen: Andere Websites, die euch verlinken, geben vielleicht eure URLs sowohl mit als auch ohne www an. Ihr könnt uns mitteilen, welche Version ihr bevorzugt im Index sehen möchtet.
  • Wiederholung von vorgefertigten Textstücken minimieren: Fügt z. B. anstelle eines langen Copyright-Textes am Ende jeder Seite eine kurze Zusammenfassung ein und linkt dann zu einer Seite, die alle Details enthält.
  • Baustellen vermeiden: User möchten keine „leeren“ Seiten sehen. Vermeidet also Platzhalter, wann immer es möglich ist. Dies heisst, Seiten mit null Rezensionen, nicht vorhandenen Immobilienlistings usw. sollten nicht veröffentlicht (oder zumindest blockiert) werden, so dass User (und Bots) nicht zum x-ten Mal auf Content stoßen wie „hier finden Sie unsere großartige Liste mit tollen Mietgelegenheiten in [Städtename]…“, während tatsächlich keine Einträge vorhanden sind.
  • CMS verstehen: Sorgt dafür, dass ihr damit vertraut seid, wie Content auf eurer Website dargestellt wird, vor allem wenn diese einen Blog, ein Forum oder ähnliche Systeme beinhaltet, die oftmals den gleichen Content in unterschiedlichen Formaten zeigen.
  • Don’t worry be happy: Regt euch nicht zu sehr über Websites auf, die euren Content „scrapen“, d. h. ihn sich widerrechtlich aneignen und neu veröffentlichen. Dies ist zwar ärgerlich, jedoch ist es sehr unwahrscheinlich, dass solche Websites einen negativen Einfluss auf die Präsenz eurer Website in Google haben. Wenn ihr einen besonders frustrierenden Fall entdeckt, reicht bitte einen DMCA Antrag ein, um Besitzanspruch auf den Inhalt geltend zu machen; wir befassen uns dann mit der Scraper-Site.

Kurz gesagt, durch ein generelles Bewusstsein für den Umgang mit Duplicate Content und ein paar Minuten für durchdachte, präventive Pflege eurer Website helft ihr uns dabei, unseren Usern einzigartigen und relevanten Content zu bieten.


Original


Mittwoch, 14. März 2007 um 16:45

14 Kommentare:

webmaster hat gesagt…

Erster :o) Danke für die Info... war ja eigentlich schon überfällig ;o)

Sebastian hat gesagt…

Toller post und weiter so!

luzie hat gesagt…

überflüssiger post. das problem mit duplicate content ist ein anderes, das mit dem unseligen page-rank zusammenhängt: neu eingereichter kopierter text rankt vor lang bestehendem original-text nur weil er (meist künstlich) "besser" verlinkt ist das ist die folge der fehlgerichteten bewertung von seiten nach äusseren kriterien statt nach inhalt. solange dieses problem besteht, brauchen wir uns über "duplicate content" gar nicht erst unterhalten.

hempstar hat gesagt…

Hallo Google,



wir würden Ihnen gern (per Email) fünf Fragen stellen für
www.interview-blog.de. Der Schwerpunkt des Blogs sind die Rubriken Unternehmer, Blogger und „Helden des Alltages“.

Als Gegenleistung für das Interview verlinken wir selbstverständlich auf
Ihre Seite.
Unsere bisher bekanntesten Interview-Partner waren von den firmen Hitflip,
hanfhaus.de, go limited, Zunft AG, AOL Deutschland, Open Business Club AG (XING) …..

Sofern Sie da Interesse haben, einfach kurz per Mail "laut" geben, dann
schicken wir die Fragen.

viele Grüße aus Osnabrück
klaus-martin meyer

F.H. hat gesagt…

An der Stelle dann doch gleich noch mal die Frage zu "bitacle.org".
Warum zum Geier werden die überhaupt noch in Euren Suchergebnissen geführt?

Rajko hat gesagt…

Warum muss ich eine .de-Domain für deutschen Content nutzen? Die meisten (eigentlich alle) vernünftigen Domains sind weg, viele neue Länderdomains werden freigegeben. Bekommt es Google einfach nicht hin, die Sprache einer Seite zu erkennen anhand von Text, Meta-Tags, HTTP-Headern, Language-Attributen?

Vincent hat gesagt…

Zum Thema TLD's:

http://googlewebmastercentral-DE.blogspot.COM/

Sebastian hat gesagt…

"Wenn ihr einen besonders frustrierenden Fall entdeckt, reicht bitte einen DMCA Antrag ein, um Besitzanspruch auf den Inhalt geltend zu machen; wir befassen uns dann mit der Scraper-Site."

(ergänzender) Shortcut: einfach auf der MFA site per report abuse link das AdSense team informieren.

anne_stahl hat gesagt…

Google benutzt Blogger fuer den Deutschen blog?

Egal, wollt eingentlich mal wissen ob 'duplicate content' auch innerhalb derselben seite gilt? Wir bauen grad 802.11n News um, und wollen eine featured news box oben einbauen, wo jeweils (per php random) ein artikel erscheint. Dieser ist dann natuerlich 100% ein duplikat desselben articles auf derselben Seite... Ist legitim gedacht, aber doch eher doppelt gemoppelt.

PS. Fein, dass ich auch von hier aus (Kalifornien) Deutschen lesen/scheiben kann.

Hella Breitkopf hat gesagt…

Hallo, sehr interessanter Post!

Habe genau so eine Webseite mit "normalem" Design (www.unixwitch.de) und eine für Mobilgeräte etwas optimierte und abgespeckte Version (mobile.unixwitch.de).

Z.Z. habe ich das crawlen auf der Mobilversion per robots.txt verboten, gibt es da auch eine elegantere Lösung?

v64trade hat gesagt…

In meinen Augen ist der DC Check von Google absolut fehlerhaft.
Ein Beispiel: Durch die Seite www.webwarper.net wurden einige meiner Projekte 1:1 kopiert. Obwohl mein Content erstens älter war und zweitens mit besseren Links ausgestattet ist, wurden meine Seiten abgewertet und sind ins Nirwana verschwunden. Von Diesem Problem sind sehr viele andere Webmaster auch betroffen wie man hier nachlesen kann: http://www.abakus-internet-marketing.de/foren/viewtopic/t-39540.html
Nach mehreren Beschwerden bei Google sind die gespiegelten Seiten bei Google aus dem Index gelöscht worden aber meine Domains sind immer noch nicht wieder an ihren alten Positionen zurück, sondern so gut wie nicht mehr zu finden. Schlimmer noch: Teilweise werden bei der Site Abfrage die Startseiten nur noch als zusätzliche Ergebnisse dargestellt.
Diese Proxy Dienste wie Webwarper.net sprießen wie Pilze aus dem Boden und Google erkennt einfach nicht, wem das Original gehört. Ein Beispiel dafür gefällig?
Bitte mal folgendes in die Suchanfrage eingeben: site:www.redime.com
Yahoo und Live haben damit weniger Probleme.
Da stellen sich eigentlich zwei Fragen für mich:
1. Wie bekommen meine alten Seiten Ihr altes Ranking und Power wieder, bzw.: werden nicht mehr als zusätzliche Ergebnisse dargestellt?
2. Wie will Goolge in Zukunft solchen Proxydiensten, bzw. deren Schaden entgegenwirken?

André hat gesagt…

Ein zwar später Kommentar, doch ist das Thema noch immer hochaktuell:
Die Aussagen in diesem Blog-Post werden durch die Realität widerlegt.

Ich habe an einer eigenen Seite eine Herabstufung respektive Verlegung in den Supplemental-Index wegen Domain-internen DC erlebt.

DC ist unverändert ein Risiko.

Test Tester hat gesagt…

Man braucht vor doppeltem Content keine Angst zu haben.

Denn für Blogger mit Wordpress ist das nicht relevant.

Mehr:

http://www.train-und-coach.de/duplicate-content-und-wordpress.html

Robert hat gesagt…

Hallo!

Ich habe ein Problem mit "double content", der garantiert kein "double content" ist!!!

Ein österreichischer Kunde von mir hat in der Schweiz ein neues Unternehmen gegründet, das die gleichen Produkte anbietet.

So wurde auch der Content 1:1 auf die neue Website übernommen.

Seit kurzem wird die neue Website von Google ignoriert bzw. nur unter "ferner liefen" gelistet!

Was tun?

MfG
RH