Freitag, 28. März 2008

Sprecht die Sprache der Suchroboter

Wir alle wissen, wie freundlich Googlebot ist. Wie alle wohlwollenden Roboter hört er auf uns und respektiert unser Anliegen, wenn Teile unserer Site nicht gecrawlt werden sollen. Wir können ihm einfach eine robots.txt-Datei bereitstellen und er wird sich gerne danach richten. Aber was ist, wenn euch der Gedanke, direkt mit dem Googlebot zu kommunizieren, etwas Angst einjagt? Schließlich sprechen nicht alle von uns fließend die robots.txt-Sprache. Aus diesem Grund sind wir froh, euch euren persönlichen Übersetzer für den Suchroboter vorzustellen: Der robots.txt-Generator in den Webmaster-Tools.
Das Tool wurde entwickelt, damit ihr eine einfache und interaktive Möglichkeit habt, eine robots.txt-Datei zu erstellen. Im einfachsten Fall müsst ihr nur die Dateien und Verzeichnisse angeben, die nicht von den Suchrobotern gecrawlt werden sollen.



Falls benötigt, könnt ihr auch detaillierte Regeln für bestimmte Suchroboter und Teile eurer Site festlegen.



Wenn ihr mit dem Generator-Tool eine robots.txt-Datei erstellt habt, könnt ihr die Wirkung dieser Datei anschließend mit unserem Analyse-Tool für robots.txt-Dateien überprüfen. Wenn ihr damit fertig seid, könnt ihr die erzeugte Datei einfach im Root-Verzeichnis eurer Site speichern und alles sollte dann wie gewünscht funktionieren. Hier sind einige wichtige Punkte, die ihr bei der Arbeit mit robots.txt-Dateien beachten solltet:

  • Nicht alle Suchmaschinen unterstützen jeden Eintrag in der robots.txt-Datei
    Der robots.txt-Generator erzeugt Dateien, die von Googlebot und ebenso von den meisten größeren Suchrobotern korrekt interpretiert werden. Es kann jedoch vorkommen, dass einzelne Suchroboter nicht alle vom robots.txt-Generator verwendeten Features verstehen.


  • Die robots.txt-Datei ist lediglich eine Anfrage
    Auch wenn man es für die bekannten Suchmaschinen mit großer Wahrscheinlichkeit ausschließen kann, gibt es doch einige skrupellose Suchroboter, die sich nicht an alle Anweisungen in der robots.txt-Datei halten und Inhalte crawlen, die eigentlich vom Crawling ausgeschlossen sind. Falls ihr sensible Daten habt, die ihr auf jeden Fall schützen wollt, solltet ihr diesen Content mittels eines passwortgesicherten Verzeichnisses schützen und euch nicht auf die robots.txt-Datei verlassen.

Wir hoffen, dass euch dieses Tool dabei hilft, Googlebot und anderen Suchrobotern eure Wünsche bezüglich des Crawlings mitzuteilen. Weitere Informationen zu den robots.txt-Dateien findet ihr in unserer Hilfe für Webmaster. Um weiter über robots.txt-Dateien und Bots zu diskutieren, könnt ihr unser Forum für Webmaster besuchen.

Speaking the language of robots (English version)

Post von Sean Harding, Webmaster Tools Team (Übersetzung von Sven, Search Quality)

Mittwoch, 26. März 2008

Nutzt die Vorteile der universellen Suche - Teil 2

Die universelle Suche (Universal Search) und die personalisierte Suche waren zwei der heißen Themen auf der SMX-West-Konferenz im letzten Monat. Viele Webmaster wollten wissen, wie die Entwicklungen im Bereich der Internetsuche die Art und Weise beeinflussen, wie euer Content in den Suchergebnissen erscheint und wie man diese Features nutzen kann, um relevanteren Traffic zu erhalten. Einige Empfehlungen, wie ihr die Vorteile der universellen Suche nutzen könnt, haben wir im letzten Jahr gepostet. Hier sind noch einige weitere Tipps:
  1. Lokale Suche: Helft den Suchenden aus eurer Umgebung dabei, eure Firma zu finden
    Die meisten Fragen zu den verschiedenen Bereichen der Internetsuche erhielten wir zum Thema "lokale Suche". Hier sind einige Tipps, um Inhabern einer Firma zu helfen, den größten Nutzen aus der lokalen Suche zu ziehen:

  2. Videosuche: Verbessert eure Ergebnisse in der Videosuche
    Mehrere Webmaster fragten, ob es möglich ist, ein bevorzugtes Vorschaubild für Videos in den Suchergebnissen zu definieren. Hier ist die gute Nachricht: Unser Video-Sitemap-Protokoll ermöglicht es euch, ein Vorschaubild für jedes eurer Videos vorzuschlagen.

  3. Grundlagen der personalisierten Suche
    Einige Beobachtungen des Googlers Phil McDonnell:
    • Die Personalisierung von Suchergebnissen drückt sich in der Regel durch minimale Änderungen im Ranking aus und nicht durch eine drastische Umordnung der Ergebnisse. Ihr solltet euch also keine Sorgen darüber machen, dass die personalisierte Suche radikale Änderungen des Rankings eurer Site für bestimmte Suchanfragen nach sich ziehen wird.
    • Wenn ihr euch auf bestimmte Nischen konzentriert oder sehr spezifische Inhalte anbietet, kann dies ein guter Weg sein, um bei der personalisierten Suche aufzufallen. Zum Beispiel könntet ihr anstelle einer allgemeinen Site zum Thema "Musik" eine Site über die Geschichte der Musik auf Haiti erstellen, oder z. B. über Musiker, die gemeinsam mit Elton John zwischen 1969-1979 Musik aufgenommen haben.
    • Bestimme Bestandteile der Personalisierung der Suche basieren auf der geografischen Position des Suchenden - so werden z. B. Suchende aus Seattle bei einer Suche nach [needle] eher Ergebnisse über die "Space Needle" erhalten als Suchende aus Florida. Nutzt die Vorteile von Features wie dem lokalen Branchencenter oder der geografischen Relevanz, um uns darüber zu informieren, ob eure Site für User aus bestimmten Regionen besonders relevant ist.
    • Es ist wie immer auch hier von Vorteil, wenn ihr interessanten, einzigartigen und fesselnden Content oder derartige Tools erstellt.

  4. Bildsuche: Erhöht eure Sichtbarkeit
    Einer der Sprecher auf der Konferenz präsentierte eine Fallstudie, bei der die Bilder eines Kunden aus den Suchergebnissen herausgefiltert wurden, da sie durch SafeSearch als nicht judgendfrei eingestuft wurden. Falls dies für eure Site auch der Fall ist, ihr aber der Meinung seid, dass euer Content nicht durch SafeSearch herausgefiltert werden sollte, dann könnt ihr dieses Kontakt-Formular verwenden, um uns darüber zu informieren. Wählt dazu einfach Ein Problem melden > Anstößige oder irrelevante Suchergebnisse und beschreibt den jeweiligen Fall.
Falls ihr weitere Tipps habt, könnt ihr diese gern in den Kommentaren hinterlassen!

Taking advantage of universal search, part 2 (English Version)

Post von Susan Moskwa, Webmaster Trends Analyst (Übersetzung von Sven, Search Quality)

Donnerstag, 20. März 2008

Frühjahrsputz

Heute ist der kalendarische Frühlingsanfang auf der Nordhalbkugel. Dieses Wochenende wäre also der perfekte Zeitpunkt, mit dem Frühjahrsputz zu beginnen. Als Webmaster wollt ihr es aber sicher nicht beim Aufräumen der Garage belassen, sondern auch euren Server entrümpeln.

Von außen
Bevor wir uns um das Innenleben kümmern: Geht doch mal raus und betrachtet eure Site von der Straße aus... bzw. wie sie in den Google-Suchergebnissen aussieht. :) Geht dazu einfach zum nächsten Google-Suchfeld und macht eine Site-Suche zu eurer Website, indem ihr das Format site:example.com benutzt. So, wie an eurem Haus die Hausnummer und am Briefkasten euer Name sichtbar ist, solltet ihr prüfen, ob die Besucher eurer Site diese auch problemlos anhand des Titels und des Snippets im Suchergebnis identifizieren können. Wenn ihr das aktuelle Erscheinungsbild verbessern wollt, probiert doch mal das Content-Analyse Feature von den Webmaster-Tools aus und informiert euch darüber, welchen Einfluss ihr auf den Snippet-Text nehmen könnt.


Apropos Adresse - wie seid ihr eigentlich gelistet? Mein Name ist Michael, aber viele nennen mich auch Mike oder sogar Wysz. Dennoch erwarte ich, dass ich in einem Telefonbuch nur einmal aufgeführt bin. Genauso kann es sein, dass viele Seiten eurer Website über verschiedene URLs erreicht werden können:
www.example.com und example.com, beispielsweise. Um eure Einträge bei Google zu konsolidieren, solltet ihr 301 Weiterleitungen verwenden, um Google (und anderen Suchmaschinen) mitzuteilen, welche Art der Darstellung ihr bevorzugt. Ihr könnt Google auch ganz einfach mittels der Webmaster-Tools eure bevorzugte Domain mitteilen. Genauso, wie ich will, dass meine Bank Überweisungen an Mike oder Michael auf dasselbe Konto von mir leitet, können die genannten Weiterleitungen Google dabei helfen, Link-Eigenschaften (wie z. B. PageRank) angemessen auf die bevorzugte URL zu übertragen.

Von innen
Egal wie aufgeräumt euer Haus ist: Die ganze Arbeit kann umsonst gewesen sein, wenn eure Besucher gar nicht erst die Haustür finden oder sich im Haus verirren. Daher solltet ihr das Erscheinungsbild und die Funktionalität eurer Site in mehreren Browsern testen, um sicherzustellen, dass alle Besucher eure Site genau so sehen, wie ihr euch das vorgestellt habt. Nicht alle User verwenden den Internet Explorer, weshalb es sinnvoll ist, zum Testen auch Browser mit unterschiedlichen Layout-Engines zu verwenden. Firefox, Safari und Opera stellen Webseiten etwas verschieden dar und diese drei Browser sind für den Eindruck verantwortlich, den mindestens 20% eurer User von eurer Site erhalten. Bei einigen Sites fällt dieser Wert sogar noch größer aus, so hat z. B. die "New York Times" kürzlich berichtet, dass ca. 38% ihrer Online-Leser entweder Firefox oder Safari verwenden.

Wenn eure Site die Nutzung von Plug-ins erfordert, solltet ihr prüfen, wie dieser zusätzliche Content auf verschiedenen Betriebssystemen dargestellt wird. Bedenkt dabei auch, dass viele Leute ihr Betriebssystem nur beim Kauf eines neuen Computers aktualisieren. Testet deshalb auch, ob eure Site problemlos auf einem Computer mit einem 1-2 Generationen älteren Betriebssystem läuft. Um sicherzustellen, dass ihr Besucher mit eingeschränkten Fähigkeiten nicht komplett von eurer Website ausschließt, solltet ihr euch eure Site einmal ohne Bilder, Flash oder Javascript betrachten. Um festzustellen, ob Google möglicherweise Probleme hat, euer Haus zu betreten, könnt ihr einfach in den Webmaster-Tools prüfen, ob dort Crawling-Fehler für eure Site angezeigt werden.

Den Müll rausbringen
Viele von uns hatten sicher bedauerlicherweise schon einmal ungebetene Gäste im Haus. Falls diese eine Unordnung hinterlassen haben, solltet ihr euren zukünftigen Besuchern den Gefallen tun und diesen Unrat beseitigen. Reißt zugespammte Gästebuch-Seiten heraus. Entfernt das Unkraut, das Spammer in eurem Forum hinterlassen haben. Und wenn ihr gerade beim entrümpeln seit, lohnt es sich auch, nach leeren oder verwaisten Seiten zu schauen. Wir haben alle irgendwelche Projekte im Keller, die nie ganz fertig wurden. Wenn einige URLs eurer Site immer noch museale "under construction" Grafiken aus den späten Neunziger Jahren anzeigen oder es Seiten mit Templates gibt, die lediglich "Produkte > Shirts > bedruckte T-Shirts: Keine bedruckten T-shirts vorhanden" beinhalten und langsam Staub ansetzen, dann kann man wohl davon ausgehen, dass ihr diese nicht mehr fertigstellen werdet. Nachdem ihr den ganzen Müll zusammengesammelt und dabei auch fehlerhafte Links korrigiert habt, solltet ihr klar zu erkennen geben, dass die unbrauchbaren Sachen tatsächlich nicht mehr vorhanden sind, indem ihr den 404 HTTP-Statuscode verwendet. Ihr könnt beispielsweise prüfen, welchen Code euer Server für einzelne Seiten liefert, indem ihr die Live-HTTP-Headers-Erweiterung in Firefox benutzt.

Sicherheit und vorbeugende Wartungsmaßnahmen
Um Probleme mit zukünftigen Besuchern zu vermeiden, besonders mit Besuchern, die versuchen, nachts über die Hintertür einzudringen, solltet ihr unsere Checkliste lesen, um zu prüfen, ob ihr die wesentlichen Schutzmaßnahmen bereits getroffen habt.

Wenn durch Wartungsarbeiten an eurer Site bestimmte Inhalte zeitweise nicht verfügbar sind, solltet ihr das euren Besuchern durch einen 503 HTTP-Statuscode zu erkennen geben. Damit lasst ihr Googlebot wissen, dass er zu einem späteren Zeitpunkt einen erneuten Crawling-Versuch starten soll und verhindert, dass stattdessen eine Fehlermeldung als Teil des Contents eurer Site indexiert wird. Falls ihr WordPress benutzt, könnt ihr diese Benachrichtigung, zusammen mit dem Statuscode, ganz einfach erstellen, indem ihr das "Maintenance Mode" Plug-in verwendet.

Da wir gerade von Eindringlingen und Software-Updates sprechen - man kann nie wissen, wann mal etwas schief geht. Bevor etwas passiert, wäre jetzt ein günstiger Zeitpunkt, die eigene Backup-Strategie zu überdenken. Genauso wie eine Versicherung für euer Haus, sind der Aufwand und die Kosten für ein überlegtes Backup eine gute Investition, weil es einfach sehr beruhigend ist - besonders wenn das Backup tatsächlich einmal benötigt wird. Ein gutes Backup-System archiviert die Backups an einem anderen Ort als die zu sichernde Site und sollte außerdem automatisch ablaufen, um der Vergesslichkeit vorzubeugen. Es hat sich bewährt, vor jedem Software-Update oder jeder größeren Änderung ein Backup der Site zu machen (inklusive aller Datenbanken).

Post von Michael Wyszomierski, Search Quality Team (Übersetzung von Sven, Search Quality)

Mittwoch, 19. März 2008

Eindrücke von der SES London

Februar ist die Zeit des Jahres, in der die Search Engine Strategies Konferenz nach London kommt.

Einige von uns waren dort, um mit Webmastern sowie Vertretern anderer Suchmaschinen über die neuesten Trends und Themen der Suchmaschinen-Welt zu sprechen.

Es war ein dreitägiger Marathon voller interessanter Gespräche – und natürlich auch vieler guter Fragen zwischen den Vorträgen. Wenn ihr keine Gelegenheit hattet, mit uns zu sprechen, keine Sorge: Wir haben die besten Fragen, denen wir dort begegnet sind, zusammengefasst. Einige findet ihr direkt in diesem Post, und weitere gibt es in unserem Forum für Webmaster: Diskutiert mit!

Warum sollte ich in den Google Webmaster-Tools eine Sitemap hinzufügen, wenn meine Site ohnehin gut gecrawlt wird?

Jede Website kann vom Einreichen einer Sitemap in den Google Webmaster-Tools profitieren. Eine Sitemap kann uns dabei helfen, eure Site besser zu crawlen und zu verstehen, insbesondere, wenn sie dynamischen Content enthält oder eine komplizierte Struktur hat.

Darüber hinaus habt ihr Zugang zu mehr Informationen über eure Site, wenn ihr eine Sitemap einreicht, zum Beispiel die Anzahl der Seiten eurer Sitemap, die von Google indexiert sind, Fehler, die Google für eure Sitemap festgestellt hat, sowie Hinweise auf potentielle Fehlerquellen. Außerdem könnt ihr spezielle Sitemaps für bestimmte Arten von Content einreichen, z. B. Video-Sitemaps , Mobile Sitemaps, News-Sitemaps oder Sitemaps für die Codesuche.

Mehr Informationen über die Vorteile des Einreichens einer Sitemap in den Google Webmaster-Tools findet ihr hier.

Wie erkennt ihr bezahlte Links? Wenn ich auf der sicheren Seite bleiben will, sollte ich dann für alle Links das nofollow-Attribut verwenden?

Wir haben vor ein paar Monaten über unsere Position zu bezahlten Links und der Verwendung von nofollow gebloggt. In diesem Zusammenhang könnte euch auch dieser Thread in der englischen Webmaster Help Group über den richtigen Einsatz des nofollow-Attributs interessieren.

Wie kann ich mit Hilfe der Google Webmaster-Tools meine Site auf ein bestimmtes Land oder eine bestimmte Region ausrichten? Geht das auch für dynamischen Websites?

In der Anleitung in unserer Hilfe für Webmaster wird erklärt, dass ihr ganze Domains, einzelne Subdomains oder Unterverzeichnisse geografisch ausrichten könnt. Ein kurzer Tipp: Wenn beispielsweise User in Deutschland eure Zielgruppe sind, dann wäre es besser, wenn ihr eure Site folgendermaßen aufbaut: example.de, de.example.com oder example.com/de/. Google kann alle diese Strukturen geografisch zuordnen.

Wenn euer Domainname keine regionale Bedeutung hat, wie example.com, dann könnt ihr eure Site dennoch mit einem Land oder einer Region verknüpfen. Dafür müsst ihr die Domain oder die Subdomains und/oder Unterverzeichnisse einzeln in eurem Webmaster-Tools-Konto verifizieren und jedem davon anschließend ein Land/eine Region zuweisen. Im Moment unterstützen wir jedoch noch keine geografische Ausrichtung für Strukturen, die nicht verifizierbar sind, wie z. B. www.example.com/?region=countrycode.

Ich betreibe eine News-Website, die nicht vollständig gecrawlt wird. Warum? Andere Bots hatten kein Problem damit, uns zu crawlen...

Stellt zuallererst sicher, dass uns nichts davon abhält, eure Site zu crawlen, wie zum Beispiel die Architektur eurer Site oder die robots.txt-Datei. Außerdem schlagen wir vor, dass ihr euch für die Webmaster-Tools anmeldet und dort euren Content einreicht. Das News-Sitemap-Protokoll ist speziell für Sites mit dieser Art von Content gemacht. Wenn ihr dieses Feature nutzt, können wir euch mehr Informationen darüber geben, mit welchen URLs wir Probleme hatten und warum.

Zum Abschluss ein kurzes Fazit: Das lebendige internationale Umfeld dieser Konferenz ist jedes Mal beeindruckend. Ich habe interessante Unterhaltungen in Englisch, aber auch Italienisch, Französisch und Spanisch geführt. Meine Kollegen von Google haben sich darüber hinaus mit Webmastern in Englisch, Dänisch, Niederländisch, Deutsch und Ungarisch ausgetauscht. Das ist fantastisch – und eine großartige Gelegenheit, uns gegenseitig besser kennen zu lernen. Also, beim nächsten Mal, wenn ihr euch fragt, wie Google Universal Search auf Englisch funktioniert oder ihr Fragen zur Google News-Suche auf Deutsch habt, dann kommt einfach bei der nächsten Konferenz auf uns zu oder schreibt uns!

SES London Calling (English Version)

Post von Luisella Mazza, Search Quality Team (Übersetzung von Michael, Search Quality)

Montag, 17. März 2008

Tipps, um Informationen allgemein zugänglich zu machen

Viele Menschen sprechen über den Einfluss, den das Internet auf die Demokratisierung des Zugangs zu Informationen hat. Als jemand, der seit seinen Jugendtagen sehbehindert ist, kann ich zweifelsohne darüber berichten, welch tiefgreifenden Einfluss das Internet auf mein Leben hatte.

Im Alltag sind Dinge wie ein Blatt Papier – und alles, was darauf geschrieben steht – vollkommen unzugänglich für blinde oder sehbehinderte Menschen. Mit dem Internet hat sich jedoch für mich und so viele andere eine neue Welt eröffnet. Dank moderner Technologien wie dem Screen Reader sind Websites, Bücher und Webanwendungen nun mit einem Knopfdruck erreichbar.

Um blinden und sehbehinderten Menschen zu helfen, relevante und nützliche Informationen im Web so schnell wie möglich zu finden, haben wir Accessible Search entwickelt. Google Accessible Search erkennt Suchergebnisse, die von Blinden und Sehbehinderten einfacher verwendet werden können, und gibt diesen Vorrang. Damit sind Seiten gemeint, die einfach aufgebaut und klar strukturiert sind (denkt an die Google Homepage!), und die ohne Bilder geladen werden können.

Warum solltet ihr euch die Zeit nehmen, euch um die Accessibility eurer Site zu kümmern? Zusätzlich zum Dienst, den ihr der Gemeinschaft der Blinden und Sehbehinderten leistet, können diese Sites einfacher gecrawlt werden. Ein erster Schritt, damit eure Site in den Suchergebnissen erscheinen kann.

Was könnt ihr für die Accessibility eurer Website tun? In erster Linie – denkt einfach. In seiner derzeitigen Version achtet Google Accessible Search auf eine Reihe von Signalen im HTML einer Seite. Tendenziell werden Seiten bevorzugt, deren Content gut in einer reinen Textversion wiedergegeben werden kann. Seiten also, die wenig visuelle Ablenkung bieten und auch ohne Bilder gut darstellbar sein können. Blinkende Banner und tanzende Tiere sind so ziemlich das Schlimmste, was ihr auf eure Site stellen könnt, wenn ihr wollt, dass der Content von einer lernfähigen Anwendung wie dem Screen Reader gelesen werden kann.

Hier einige grundsätzliche Tipps:
  1. Macht eure Seiten einfach lesbar. Vermeidet ein visuelles Durcheinander und stellt sicher, dass der eigentliche Content der Seite direkt und mittels Tastatursteuerung erreicht werden kann.

  2. Es gibt viele Organisationen und Onlinequellen, die Websitebesitzern und Autoren Richtlinien geben, wie man Websites besser für Blinde und Sehbehinderte zugänglich macht. Die W3C hat zahlreiche Richtlinien herausgegeben, darunter auch die Web Content Access Guidelines.

  3. Wie bei der herkömmlichen Suche könnt ihr ein gutes Ranking am besten mit gutem Content erreichen. Stellt euch den Google-Crawler als den weltweit einflussreichsten blinden User vor. Der Content, der für den Googlebot am wichtigsten ist, zählt auch für den blinden User am meisten: hochwertiger Text.

  4. Überprüfenswert ist auch, wie euer Content für andere User sichtbar ist. Versucht beispielsweise, eure Site auf einem Schwarz-Weiß-Bildschirm zu öffnen oder die Site ohne Maus zu verwenden. Ebenso könnt ihr überprüfen, ob die Usability eurer Site auch auf mobilen Geräten gewährleistet ist, wie z. B. auf einem Blackberry oder iPhone.

Liebe Webmaster-Kollegen, vielen Dank, dass ihr euch die Zeit genommen habt, die Grundsätze der Website-Accessibility besser zu verstehen. In meinem nächsten Post werde ich darüber sprechen, wie ihr sicherstellen könnt, dass kritische Sitefunktionen, wie z. B. die Sitenavigation, gut zugänglich sind. Bis bald!

Tips for making information universally accessible (English version)

Post von T.V. Raman (http://emacspeak.sourceforge.net/raman/), Research Scientist (Übersetzung von Michael, Search Quality)

Freitag, 14. März 2008

Schon ein Jahr alt und weiter begeistert am Bloggen!


Die Community der deutschsprachigen Webmaster ist weltweit eine der größten und aktivsten. Deshalb haben wir vor genau einem Jahr eine deutsche Version des erfolgreichen englischsprachigen Webmaster Central Blogs gelauncht. Am heutigen Tag wird unser Blog ein Jahr alt, doch bevor wir die Korken knallen lassen, blicken wir zurück, welche Infos euch am meisten interessiert haben.

In über 50 Posts haben wir speziell für deutsche Webmaster interessante Themen zu Crawling und Indexierung zusammengestellt.


Was waren eure Lieblingposts im Jahr eins unseres Bestehens?
  • Es herrschte eine große Nachfrage nach Posts über die Erstellung erfolgreicher Google-freundlicher Websites mit gut strukturierten Sitemaps.
  • Besonders beliebt im letzten Jahr war auch der Post über die Qualität von Snippets und wie ihr diese durch den geschickten Einsatz von Meta-Descriptions verbessern könnt.
  • Ein weiteres Thema, das euren Nerv getroffen hat, war Duplicate Content. Wir haben beschrieben, wie ihr Duplicate Content als Webmaster vermeiden könnt, wenn dieser beispielsweise durch URL-Parameter hervorgerufen würde.
  • Auch der Post über die Indexierung von Flash-Sites ist bei euch auf breites Interesse gestoßen. Hauptsächlich ging es darum, wie ihr trotz der Verwendung von Flash, das für Suchmaschinen eher schwer zu verstehen ist, eine gute Indexierung euer Site erreichen könnt.
Wenn euch eines dieser Themen noch immer unter den Nägeln brennt, dann schaut in unserem Forum vorbei und diskutiert dort mit anderen Webmastern und unserem Google Guide Uli.

Auch im zweiten Jahr unseres Bestehens könnt ihr unsere Posts per Feed oder per E-Mail abonnieren, um über neuen Content auf unserem Blog stets informiert zu sein. Natürlich könnt ihr auch ganz klassisch einen Bookmark setzen und regelmäßig vorbeischauen.

Als Leser habt ihr uns im letzten Jahr die Treue gehalten und mit vielen Kommentaren den Blog bereichert. Wir wünschen uns fürs neue Jahr noch viel mehr Feedback und Anregungen von euch. Für Blogthemen in 2008, die ihr hier lesen wollt, postet einfach eure Vorschläge und Anregungen auf unserem Forum für Webmaster. Wir freuen uns immer, von euch zu hören!


Post von Juliane Stiller im Namen des Webmaster Communication Teams

Mittwoch, 12. März 2008

Webmaster-Tools lassen eure "Nachrichten warten"

Wir freuen uns, euch mitteilen zu können, dass das Nachrichten-Center ein neues "Nachrichten warten"-Feature unterstützt. Zuvor konnten Benachrichtigungen nur für bereits existierende und verifizierte Inhaber von Websites (d. h. Webmaster, die ihre Sites bereits verifiziert hatten) gespeichert werden. Jetzt ist es jedoch möglich, solche Nachrichten im Nachrichten-Center auch für zukünftige Inhaber von Websites aufzubewahren, d. h. für diejenigen, die nicht bereits in Googles Webmaster-Tools registriert waren.

Wenn ihr ein Konto in den Webmaster-Tools erstellt und dort eure Site verifiziert, dann könnt ihr alle Nachrichten von Google sehen, die sich auf Verstöße gegen unsere Richtlinien für Webmaster beziehen. Nachrichten, die erst nach dem Launch dieses Features verschickt wurden, können nun ein Jahr lang in eurem Konto abgerufen werden und bleiben dort gespeichert, sofern ihr sie nicht selbst löscht.

Dieses neue Feature ist besonders nützlich, falls ihr eine Penalty E-Mail erhalten habt und an deren Echtheit zweifelt. Jetzt ist es sehr einfach, diese E-Mail zu verifizieren - erstellt einfach ein Konto in den Webmaster-Tools (sofern ihr dies nicht schon getan habt) und prüft, ob dort eine Nachricht bezüglich eurer Site vorhanden ist.

Einige Fragen, die ihr vielleicht habt:

F: Was passiert mit alten Nachrichten, falls der Inhaber einer Website wechselt?
A: Auch für den Fall, dass der Inhaber wechselt, können neue verifizierte Inhaber Nachrichten empfangen wie oben beschrieben.

F: Angenommen, eine Site hat mehr als einen verifizierten Inhaber, und einer von ihnen löscht eine Nachricht. Wird diese Nachricht dann für alle anderen Inhaber der Website ebenfalls gelöscht?
A: Nein, jeder Inhaber einer Website erhält seine persönliche Kopie der Nachricht, sobald er die Nachricht abruft. Das Löschen einer Nachricht hat keinen Einfluss auf das Abrufen von älteren, aktuellen oder zukünftigen Nachrichten.

Wenn ihr eine Benachrichtigung über Verstöße gegen die Richtlinien für Webmaster erhalten habt, könnt ihr die nötigen Änderungen an eurer Site vornehmen, um sie in Übereinstimmung mit unseren Richtlinien zu bringen. Danach könnt ihr für eure Site in den Webmaster-Tools einen Antrag auf erneute Überprüfung einreichen.

Webmaster Tools keeps your "messages waiting" (English version)

Post von Jessica and Uli, Search Quality Team (Übersetzung von Claudia)

Montag, 10. März 2008

Das erste Date mit Googlebot: Header und Komprimierung






Name/User-Agent:
Googlebot
IP-Adresse:
Hier verifizieren
Ich suche:
Websites mit einzigartigem
und gutem Content

Geht gar nicht:
Verstöße gegen die
Richtlinien für Webmaster












Googlebot – ein echter Traumtyp. Es ist so, als würde er uns von Kopf- bis Fußzeile kennen, als wüsste er über unseren <body> genau Bescheid. Er ist wahrscheinlich nicht auf der Suche nach etwas Festem; er sieht Milliarden anderer Sites (allerdings teilen wir unsere Daten auch mit anderen Bots :), doch heute Abend werden wir uns als Website und Crawler richtig nahe kommen.


Ich weiß, es ist nie gut, das erste Date zu sehr zu analysieren. Wir werden den Googlebot ein bisschen langsamer kennen lernen, in einer Serie von Posts:

  1. Das erste Date (heute!): Von Googlebot gesendete Header; Dateiformate, die er "versteht"; ob es besser ist, Daten zu komprimieren
  2. Seine Antwort deuten: Response-Codes (301, 302), wie er mit Weiterleitungen und If-Modified-Since umgeht
  3. Nächste Schritte: Den Links folgen, wie lasse ich ihn schneller oder langsamer crawlen (so dass er nicht zu aufdringlich wird)
Und heute Abend ist gerade mal das erste Date…

***********
Googlebot: ACK
Website: Googlebot, du bist da!
Googlebot: Ja, hier bin ich.
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)
Accept-Encoding: gzip,deflate

Website: Diese Header sind echt schick! Crawlst du mit den gleichen Headern, egal ob meine Site in den USA, Asien oder Europa ist? Verwendest du jemals andere Header?

Googlebot:
Meine Header sind normalerweise weltweit einheitlich. Ich versuche zu sehen, wie eine Seite in ihrer Default-Sprache und mit den Default-Einstellungen aussieht. Manchmal ist der User-Agent anders, zum Beispiel verwendet AdSense "Mediapartners-Google":


User-Agent: Mediapartners-Google


Für die Bildsuche heißt der User-Agent:


User-Agent: Googlebot-Image/1.0


Bei der kabellosen Datenübertragung werden häufig betreiberspezifische User-Agenten verwendet, während die RSS-Abrufe von Google Reader zusätzliche Informationen beinhalten, beispielsweise die Anzahl der Feed-Abonnenten.


Ich meide gewöhnlich Cookies (also kein "Cookie:"-Header), da ich nicht will, dass der Content zu sehr von sessionspezifischen Informationen beeinflusst wird. Wenn ein Server eine Session-ID eher in einer dynamischen URL als in einem Cookie verwendet, dann kann ich das normalerweise erkennen, damit ich nicht die gleiche Seite von dir mit Millionen verschiedener Session-IDs eine Million mal crawle.

Website: Ich bin sehr komplex. Ich habe viele Dateitypen. Deine Header sagen "Accept: */*". Indexierst du alle URLs oder werden bestimmte Dateiendungen automatisch gefiltert?

Googlebot: Das kommt darauf an, wonach ich Ausschau halte.

Wenn ich für die reguläre Websuche unterwegs bin und Links zu MP3-Dateien und Videos sehe, dann lade ich diese wahrscheinlich nicht herunter. Wenn ich ein JPG sehe, dann behandle ich es auch anders als einen HTML- oder einen PDF-Link. Beispielsweise ist mit großer Wahrscheinlichkeit anzunehmen, dass sich JPGs nicht so oft ändern wie HTML, also checke ich das JPG weniger häufig, um Bandbreite zu sparen. Bin ich unterdessen dabei, als gelehrter Google Scholar nach Links zu schauen, dann bin ich viel interessierter an dem PDF-Artikel als an der JPG-Datei. Es lenkt einen Gelehrten einfach zu sehr ab, Doodles (wie JPGs) and Videos von Skateboard fahrenden Hunden herunterzuladen, findest du nicht?

Website: Ja, das stimmt. Ich bewundere deine Disziplin – ich liebe Doodles (JPGs) und kann ihnen kaum widerstehen.

Googlebot: Ich auch, ich bin nicht immer so schulmeisterlich. Wenn ich für die Bildsuche crawle, dann bin ich äußerst interessiert an JPGs. Für News-Ergebnisse schaue ich hauptsächlich nach HTML und nahe liegenden Bildern.

Es gibt auch viele Dateiendungen (exe, dll, zip, dmg…), die oft zu groß und weniger nützlich für eine Suchmaschine sind.

Website: Wenn du meine URL siehst, würdest du sie (wimmer wimmer) abweisen, nur weil sie eine unbekannte Dateiendung enthält?

Googlebot: Website, lass mich ein bisschen weiter ausholen. Nachdem ich eine Datei heruntergeladen habe, benutze ich den Content-Type-Header, um zu prüfen, ob sie wirklich HTML, ein Bild, Text oder etwas anderes ist. Für spezielle Datentypen wie PDF-Dateien, Word-Dokumente oder Excel-Tabellen vergewissere ich mich, dass sie ein gültiges Format haben und extrahiere den Text-Content. Vielleicht haben sie einen Virus; man weiß ja nie. Wenn das Dokument oder der Datentyp richtig vermurkst sind, dann kann ich normalerweise nicht viel tun, außer den Content zu verwerfen.

Wenn ich also URLs wie http://www.example.com/page1.LOL111 mit einer unbekannten Dateiendung crawle, dann beginne ich wahrscheinlich mit dem Herunterladen. Falls ich den Content-Typ nicht aus dem Header erschließen kann, oder falls es ein Format ist, das wir nicht indexieren (z. B. mp3), dann lasse ich sie in Ruhe. Ansonsten fahren wir mit dem Indexieren fort.

Website: Entschuldige, dass ich dich unter die Lupe nehme, Googlebot, aber mir ist aufgefallen, dass deine Accept-Encoding-Header sagen:

Accept-Encoding: gzip,deflate

Kannst du mir diese Header erklären?

Googlebot: Klar. Alle großen Suchmaschinen und Webbrowser unterstützen die gzip-Komprimierung des Contents, um Bandbreite zu sparen. Andere Angaben, die du an dieser Stelle sehen könntest, sind unter anderem "x-gzip" (dasselbe wie "gzip"), "deflate" (das wir ebenfalls unterstützen) und "identity".


Website: Kannst du mir mehr über Dateikomprimierung und "Accept-Encoding: gzip,deflate" erzählen? Viele meiner URLs bestehen aus großen Flash-Dateien und atemberaubenden Bildern, nicht nur aus HTML. Würde es dir dabei helfen, schneller zu crawlen, wenn ich meine größeren Dateien komprimiere?


Googlebot: Auf diese Frage gibt es keine einfache Antwort. Zunächst einmal: Viele Dateiformate, so wie swf (Flash), jpg, png, gif und pdf, sind bereits komprimiert (es gibt auch spezielle Flash-Optimierer).


Website: Vielleicht habe ich also meine Flash-Dateien schon komprimiert und wusste noch nicht einmal davon? Ich bin offenbar echt effizient.


Googlebot: Sowohl Apache als auch IIS bieten die Möglichkeit, die gzip- und deflate-Komprimierung zu aktivieren, obwohl die gesparte Bandbreite zu Lasten der CPU geht. Üblicherweise ist sie nur für einfach zu komprimierenden Text-Content in HTML/CSS/PHP aktiviert. Sie wird auch nur dann verwendet, wenn der Browser des Users oder ich (ein Suchmaschinen-Crawler) sie unterstützen. Ich persönlich mag "gzip" lieber als "deflate". Gzip ist eine etwas robustere Kodierung – es gibt immer eine Prüfsumme und einen vollständigen Header, so dass ich weniger Rätselraten muss als bei deflate. Ansonsten sind sie sehr ähnliche Komprimierungsalgorithmen.

Falls du auf deinen Servern noch Prozessorleistung übrig hast, dann lohnt es sich vielleicht, mit der Komprimierung zu experimentieren (Links: Apache, IIS). Wenn du jedoch dynamischen Content lieferst und deine Server-CPUs schon sehr ausgelastet sind, dann ist das vielleicht nichts für dich.


Website: Das ist sehr interessant. Ich bin wirklich froh, dass du heute Abend gekommen bist – zum Glück hat meine robots.txt das zugelassen. Diese Datei führt sich manchmal auf wie überfürsorgliche Eltern!


Googlebot: Ah ja, die Vorstellung bei den Eltern; die robots.txt-Datei. Ich habe schon viele verrückte getroffen. Manche sind eher HTML-Fehlerseiten als anständige robots.txt-Dateien. Einige haben überall unendliche Weiterleitungen, manchmal zu Sites, zu denen es überhaupt keinen Bezug gibt. Wieder andere sind einfach nur riesig und listen Tausende verschiedener URLs einzeln auf. Hier ist ein Beispiel für einen unglücklichen Umgang mit robots.txt. Diese Site ist normalerweise erpicht darauf, dass ich sie crawle:


User-Agent: *

Allow: /

Dann, in einer Stoßzeit mit viel User-Traffic, ändert sie ihre robots.txt-Datei und schließt das Crawling aus:


# Kannst du eine Zeit lang wegbleiben?

# Du darfst bald wiederkommen, versprochen!
User-Agent: *
Disallow: /

Das Problem bei dieser Art von Änderung der robots.txt-Datei ist, dass ich, sobald ich diesen restriktiven Befehl sehe, möglicherweise Content verwerfen muss, den ich vorher bereits gecrawlt und indexiert hatte. Anschließend, wenn ich dann wieder an die Site heran darf, muss ich viel von diesem Content erneut crawlen. Ein vorübergehender 503 Response-Code wäre zumindest zeitlich begrenzt.


Ich überprüfe die robots.txt-Datei gewöhnlich einmal am Tag (ansonsten würde ich bei vielen virtuellen Hosts den Großteil meines Crawlings nur damit verbringen, robots.txt nachzuprüfen, und wer will bei einem Date schon ständig "die Eltern treffen"). Es geht für Webmaster normalerweise nach hinten los, wenn sie versuchen, die Crawl-Rate durch die Änderung der robots.txt-Datei zu kontrollieren. Es ist besser, die Crawling-Geschwindigkeit in den Webmaster-Tools auf "Langsamer" zu setzen.


Googlebot: Website, danke für deine Fragen, du warst wunderbar, aber ich muss mich jetzt verabschieden – "FIN, meine Liebe".


Website: Oh, Googlebot…ACK/FIN. :)

First date with the Googlebot: Headers and compression (English version)

Post von Maile Ohye als Website und Jeremy Lilley als Googlebot (Übersetzung von Johanna, Search Quality)