Montag, 21. Juli 2008

Die Technologie hinter dem Google-Ranking

In meinem vorherigen Post habe ich die Philosophie, die hinter dem Google-Ranking steht, vorgestellt. Als Teil unserer Bemühungen, Search Quality vorzustellen, möchte ich euch mehr über die Technologie mitteilen, die hinter unserem Ranking steht. Die Kerntechnologie unseres Ranking-Systems leitet sich aus dem akademischen Bereich des Information Retrieval (IR) ab. Die IR-Community hat Search nun fast 50 Jahre studiert. Sie verwendet statistische Signale zur Erkennung von Schlüsselwörtern, wie etwa Worthäufigkeit, um Seiten zu ranken. (Siehe auch "Modern Information Retrieval: A Brief Overview", um einen schnellen Überblick über IR-Technologie zu bekommen.) IR hat uns eine solide Grundlage geliefert und wir haben darüber hinaus ein großartiges System geschaffen, indem wir Links, Seitenstruktur und viele weitere solcher Innovationen genutzt haben.

Search ist in den letzten Jahrzehnten weggerückt von Gib mir, was ich gesagt habe hin zu Gib mir, was ich möchte. Die Erwartungen, die User an Search haben, sind zu Recht angewachsen. Wir arbeiten hart, um die Erwartungen jedes einzelnen Users zu erfüllen, und um dies zu erreichen, müssen wir ein besseres Verständnis für die Seiten, die Suchanfragen und unsere User selbst entwickeln. Über das letzte Jahrzehnt hinweg haben wir die Technologien, die für das Verständnis dieser drei Komponenten (des Suchprozesses) zuständig sind, in komplett neue Dimensionen geführt.

Wenn wir über Suchanfragen an Google sprechen, dann verwenden wir eckige Klammern [ ], um den Anfang und das Ende einer Suchanfrage zu kennzeichnen (seht
"How to write queries" von Matt Cutts). Ich werde diese Art der Kennzeichnung durchgehend in meinem Post verwenden. (Seiten und Suchergebnisse ändern sich häufig, so dass eventuell im Laufe der Zeit einige der hier verwendeten Beispiele nicht mehr wie erwartet funktionieren werden.)
  • Seiten verstehen: Wir haben über viele Jahre intensiv in unser System zum Crawlen und Indexieren investiert. Als Ergebnis haben wir einen äußerst großen und sehr aktuellen Index. Abgesehen von Größe und Aktualität haben wir unseren Index auch auf andere Weise verbessert. Eine der Schlüsseltechnologien, die wir entwickelt haben, um Seiten zu verstehen, ist es, wichtige Konzepte mit einer Seite zu assoziieren, auch wenn diese auf der Seite nicht offensichtlich sind. Wir finden die offizielle Homepage für die Sprovieri Gallery in London für die italienische Suchanfrage [galleria sprovieri londra], auch wenn die offizielle Seite weder "London" noch "Londra" enthält. In den USA findet ein User, der nach [cool tech pc vancouver, wa] sucht, die Homepage www.cooltechpc.com, auch wenn die Seite nirgendwo erwähnt, dass sie sich in Vancouver, WA befindet. Andere Technologien, die wir entwickelt haben, sind z. B. die Unterscheidung von wichtigen und weniger wichtigen Wörtern auf einer Seite sowie die Aktualität der Informationen auf der Seite.
  • Suchanfragen verstehen: Es ist wichtig, dass wir verstehen, wonach unsere User suchen - und zwar über die paar Wörter in ihrer Suchanfrage hinaus. Wir haben einige bemerkenswerte Fortschritte auf diesem Gebiet gemacht, wie z. B. die Implementierung eines erstklassigen Systems von Rechtschreibvorschlägen, eines fortschrittlichen Synonymsystem und eines mächtigen Systems zur Analyse von Konzepten.
Die meisten User haben bereits einmal unser System für Rechtschreibvorschläge verwendet. Es erkennt, dass jemand, der nach [kofee annan] sucht, eigentlich nach "Herrn Kofi Annan" sucht, und es wird dementsprechend Folgendes ausgegeben: Meinten Sie: kofi annan. Jemand, der hingegen [kofee beans] eingibt, sucht eigentlich nach "coffee beans". Es ist sehr schwierig, all dies mit hoher Präzision auf internationaler Ebene zu bewerkstelligen, und wir meistern es gut.

Synonyme bilden die Grundlage unserer Arbeit daran, Suchanfragen zu verstehen. Es ist eins der schwierigsten Probleme, die wir in Google lösen. Etwas, das mitunter ganz offensichtlich für Menschen ist, kann ein ungelöstes Problem für die automatisierte Sprachverarbeitung darstellen. Als User möchte ich nicht zu viel darüber nachdenken, welche Begriffe ich genau in meiner Suchanfrage verwenden sollte. Oft weiß ich nicht einmal genau, welches die richtigen Begriffe sind. Dies ist die Stelle, an der unser Synonymsystem in Kraft tritt. Unser Synonymsystem kann anspruchsvolle Modifikationen von Suchanfragen vornehmen, so weiß es beispielsweise, dass das Wort "Dr" in der Suchanfrage [Dr Zhivago] für Doctor steht, wohingegen es in [Rodeo Dr] Drive bedeutet. Ein User, der nach [back bumper repair] sucht, erhält Ergebnisse über "rear bumper repair". Für [Ramstein ab] suchen wir automatisch nach Ramstein Air Base - für die Suchanfrage [b&b ab] jedoch suchen wir nach Bed and Breakfasts in Alberta, Kanada. Wir haben dieses Niveau für das Verständnis von Suchanfragen für beinahe hundert verschiedene Sprachen erreicht - etwas, auf das ich sehr stolz bin.

Eine andere Technologie, die wir in unserem Ranking-System verwenden, ist das Identifizieren von Konzepten. Wichtige Konzepte in der Suchanfrage zu identifizieren hilft uns dabei, viel mehr an relevanten Ergebnissen zu liefern. Unser Algorithmus versteht z. B., dass der User mit der Suchanfrage [new york times square church] nach der bekannten Kirche auf dem Times Square [well-known church in Times Square] sucht, und nicht nach Artikeln der New York Times. Es reicht für uns nicht allein aus, Konzepte zu verstehen - darüberhinaus reichern wir die Suchanfrage mit den richtigen Konzepten an. Jemand, der beispielsweise nach [PC and its impact on people] sucht, möchte eigentlich gerne Ergebnisse zu impact of computers on society erhalten, oder jemand, der [rainforest instructional activities for vocabulary] eingibt, sucht eigentlich nach rain forest lesson plans. Unser Algorithmus für die Analyse von Suchanfragen hat viele dieser modernsten Techniken eingebaut, und auch hier funktioniert dies auf internationaler Ebene in beinahe jeder Sprache, die wir unterstützen.
  • User verstehen: Unsere Arbeit daran, die Intention von Usern zu interpretieren, zielt darauf ab, Usern Ergebnisse auszugeben, die sie wirklich möchten, anstatt ihnen nur das zu liefern, was sie in ihrer Suchanfrage formuliert haben. Diese Arbeit beginnt mit einem erstklassigen Lokalisierungssystem, hinzukommend zu unserer fortschrittlichen Personalisierungstechnologie sowie anderen großartigen Fortschritten, die wir dabei gemacht haben, die Intention von Usern zu interpretieren, wie z. B. Universal Search.
Unser klarer Fokus darauf, "die besten lokal relevanten Ergebnisse global anzubieten", spiegelt sich in unserer Arbeit im Bereich Lokalisierung wieder. Stellt ihr dieselbe Suchanfrage in verschiedenen Ländern, so erhaltet ihr möglicherweise komplett unterschiedliche Ergebnisse. Ein User, der nach [bank] in den USA sucht, sollte amerikanische Banken als Ergebnis erhalten, wohingegen ein User in Grossbritannien entweder nach der Modemarke "Bank" oder nach britischen Geldinstituten sucht. Als Ergebnis für diese Suchanfrage sollten lokale Geldinstitute auch in anderen englischsprachigen Ländern wie Australien, Kanada, Neuseeland oder Süd-Afrika ausgegeben werden. Der Spaß fängt eigentlich dann an, wenn diese Suchanfrage in nicht-englischsprachigen Ländern wie Ägypten, Israel, Japan, Russland, Saudi-Arabien und der Schweiz gestellt wird. Ebenso bezieht sich die Suchanfrage [football] auf ganz unterschiedliche Sportarten in Australien, in Grossbritannien und den USA. Diese Beispiele zeigen hauptsächlich, wie wir die lokalisierte Version desselben Konzepts korrekt ausgeben können (Geldinstitute, Sport, etc.). Dieselbe Suchanfrage kann jedoch in verschiedenen Ländern eine ganz andere Bedeutung haben. So ist [Côte d'Or] z. B. eine geografische Region in Frankreich - im benachbarten französischsprachigen Belgien ist es jedoch ein großer Schokoladenhersteller. Und ja, auch das bekommen wir richtig hin! :-)

Personalisierung ist ein anderes mächtiges Feature in unserem Suchsystem, das Suchergebnisse auf einzelne User zurechtschneidet. User, die während ihrer Suche eingeloggt sind und sich für das Webprotokoll angemeldet haben, erhalten Suchergebnisse, die für sie von höherer Relevanz sind als die normalen Google-Suchergebnisse. So könnte beispielsweise jemand, der viele fussballbezogene Suchanfragen stellt, mehr fussballbezogene Suchergebnisse für [giants] erhalten, wohingegen andere User eventuell eher Ergebnisse bezogen auf das Baseball-Team bekommen. Ebenso ist es wahrscheinlich, dass ihr, sofern ihr gerne Ergebnisse von einer bestimmten Einkaufs-Site bekommt, Ergebnisse von genau dieser Site erhaltet, wenn ihr nach Produkten sucht. Unsere Evaluierung zeigt, dass User, die personalisierte Ergebnisse erhalten, diese gewöhnlich als relevanter empfinden als nicht-personalisierte Ergebnisse.

Ein Fall, der zeigt, welche Rolle die Intention des Users spielt, kann am Beispiel der Suchanfrage [chevrolet magnum] beobachtet werden. Magnum wird faktisch von DodgeChevrolet hergestellt. Dementsprechend zeigen wir in den Ergebnissen für Dodge Magnum den Hinweis Ergebnisse anzeigen für: dodge magnum.

Unsere Arbeit an Universal Search ist ein anderes Beispiel dafür, wie wir die Intention unserer User interpretieren, um ihnen das zu liefern, was sie (mitunter) wirklich wollen. Wer nach [bangalore] sucht, bekommt nicht nur die wichtigen Webseiten, sondern erhält auch eine Landkarte, ein Video über das Straßenbild und den Verkehr etc. in Bangalore - wenn ich dieses Video anschaue, habe ich beinahe das Gefühl, dort zu sein :). Und zu dem Zeitpunkt, zu dem die Suchanfrage verfasst wird, gibt es wichtige Nachrichten und Blogs über Bangalore.

Lasst mich schließlich kurz unseren neuesten Fortschritt im Bereich Search erwähnen: Cross Language Information Retrieval (CLIR). CLIR erlaubt es Usern, zuerst Informationen zu entdecken, die nicht in ihrer Sprache sind - als zweiten Schritt machen wir diese Informationen zugänglich, indem wir Googles Übersetzungstechnologie verwenden. Ich nenne diesen Fortschritt: Gib mir, was ich möchte, in jeder Sprache. Ein User, der nach Tony Blairs Biographie in Russland sucht und Suchanfragen auf Russisch eingibt [Тони Блэр биография], wird an das Ende unserer Suchergebnisse verwiesen, um das englische Web zu durchsuchen mit:



Ein ähnliches Beispiel in diesem Zusammenhang ist, dass ein User, der in Ägypten mit der Suchanfrage [أغاني أفلام ديزني] nach Liedern von Disney-Filmen sucht, zur englischen Websuche verwiesen wird. Wir freuen uns sehr über CLIR, da es uns unserer Mission näherbringt, die Informationen der Welt zu organisieren und allgemein nutzbar und zugänglich zu machen.

Ich könnte damit fortfahren und noch mehr Beispiele von modernster Technologie hervorbringen, die wir entwickelt haben, um unser Ranking-System so gut, wie es jetzt ist, zu machen. Fakt ist jedoch, dass Search noch weit davon entfernt ist, ein gelöstes Problem zu sein. Viele Suchanfragen erhalten immer noch kein befriedigendes Resultat von Google, und jede Suchanfrage ist eine Möglichkeit, um unser Ranking-System zu verbessern. Ich bin zuversichtlich, dass wir mit zahlreichen Techniken, die in unserer Gruppe entwickelt werden, bald eine starke Verbesserung unseres Ranking-Algorithmus erreichen können.

Ich hoffe, dass meine beiden Posts über das Google-Ranking deutlich gemacht haben, dass wir sehr von Search begeistert sind und überaus passioniert daran arbeiten. Wir haben einen großen Eifer dafür entwickelt, allen unseren Usern weltweit zu nutzen. Wir sind stolz darauf, über ein sehr gutes Ranking-System zu verfügen, und wir arbeiten tagtäglich hart daran, es noch besser zu machen.

Technologies behind Google ranking (English version)

Freitag, 18. Juli 2008

Matt Cutts über Ranking, Spam und die Zukunft der Suche

Vor kurzem habe ich die Möglichkeit ergriffen, dem Regen in Dublin zu entkommen und den Google Hauptsitz in Mountain View zu besuchen. Dort traf ich Matt Cutts, um ihn für diesen Blog zu interviewen. In der kalifornischen Sonne haben wir uns über Tools für Webmaster, Matts erste Begegnung mit Spam und wie man am besten in Google rankt unterhalten. Matt freute sich sehr, ein paar Worte an die deutsche Community zu richten und euch einige Tipps zukommen zu lassen. Wenn ihr also mehr über Matts Meinung zur Entwicklung von Suchmaschinen hören wollt und ihr erfahren möchtet, wie schwierig es für den Chef der Webspam-Ingenieure sein kann, im Internet zu surfen, dann schaut euch das Video an. Lasst uns wissen, wie ihr es findet. Unter dem Video könnt ihr die deutsche Übersetzung des Interviews lesen. Viel Spaß!



Deutsche Übersetzung des Interviews

Hallo an alle User aus Deutschland! Ob ihr nun User, Webmaster oder ein SEO seid - ich freue mich, hier die Gelegenheit zu haben, ein bisschen mit euch zu sprechen. Ich hoffe, dass ich bald die Möglichkeit finde, auch einmal nach Deutschland zu kommen. Bis dahin bin ich froh, dass wir hier viele talentierte Googler haben, die sich um den deutschen Markt kümmern und den Kontakt zu deutschen Webmastern halten. Das Feedback, das wir durch unser Diskussionsforum von euch bekommen, nehmen wir sehr ernst und versuchen, es entsprechend umzusetzen. Ich hoffe, euch gefällt das Interview!

Frage: Kannst Du uns erzählen, wie du mit Webspam in Berührung gekommen bist?

Matt: Das war, als ich gerade bei Google angefangen hatte. Ich arbeitete damals am SafeSearch-Projekt, einem Filter für pornografischen Content. Damals herrschte die Annahme, dass eine Site mit hohem PageRank automatisch sauber sein sollte, da ein hoher PageRank eigentlich kein typisches Signal einer Porn-Site war. Als dann doch einmal eine derartige Site durch den Filter kam, stellte ich fest, dass es sich dabei um eine abgelaufene Domain handelte, die vom W3C, also einer großen Autorität, verlinkt war. Das war eigentlich der Moment, als ich merkte, dass einige Leute doch Wege gefunden hatten, um unsere linkbasierten Algorithmen und den PageRank auszutricksen. Meine erste Spam-Site war also eine Porn-Site - vielleicht kann ich mich auch deshalb noch so gut daran erinnern. :)

Frage: Was glaubst du sind die größten Herausforderungen für Suchmaschinen in den nächsten fünf Jahren?

Matt: Ich denke, da gibt es viele Herausforderungen. Eine davon ist, dass die User immer größere Erwartungen an Suchmaschinen stellen. Udi Manber, einer unserer VPs für Softwareentwicklung, hat dies gut dargestellt, indem er die Suchanfragen von vor einigen Jahren mit denen von heute vergleicht. Was damals wirklich schwierig war, haben wir heute ganz gut im Griff, was gleichzeitig bedeutet, dass die User von uns erwarten, auch bei noch komplizierteren Suchanfragen gute Resultate zu liefern. Wir bekommen also laufend kompliziertere Suchanfragen, die zunächst als unlösbare Aufgabe erscheinen, und sobald wir diese Herausforderungen geschafft haben, können wir sicher sein, dass die Suchanfragen der User noch komplexer werden.

Frage: Was sind deine Empfehlungen an die Besitzer kleinerer Websites für das Ranking in den Google Suchergebnissen?

Matt: Ein zentrales Element ist es, kreativ zu sein. Die meisten Webmaster kleiner Sites rechnen sich beim Start einer neuen Site keine besonderen Chancen aus, mit großen Sites bei allgemeineren Suchanfragen konkurrieren zu können. Deshalb sollten sie sich beispielsweise zunächst auf eine bestimmte Nische konzentrieren. Wenn ihr eine Site über Schuhe starten wollt, könnt ihr euch z. B. zuerst auf Schuhe für Leute mit besonders großen Füßen konzentrieren. Ich habe schon einige Webmaster kleiner Sites gesehen, die das erfolgreich angewandt haben. Ihr könnt euch dann zunächst ganz auf diese Nische konzentrieren und dadurch zu einer Art Experte auf diesem Gebiet werden. Darauf basierend könnt ihr eure Website ausbauen. Ein weiterer Vorteil bei kleineren Sites ist, dass ihr damit viel kreativer sein und schneller reagieren könnt, als es Betreibern einer sehr großen Site möglich ist. Ich habe mit einigen Webmastern großer Sites gesprochen, die mir von riesigen, jahrelangen Projekten erzählten und auf Nachfrage erklärten, dass eigentlich nur ein bestimmter Teil im oberen Bereich der Site auf allen Seiten geändert werden sollte. Es erforderte viele Monate, um die Zustimmung aller Beteiligten innerhalb der Firma zu bekommen. Als kleiner Webmaster kann man solche Änderungen hingegen schnell umsetzen, mit verschiedenen Versionen experimentieren und Dinge, die gut funktionieren, sehr schnell einbauen. Der Vorteil ist also die Möglichkeit, sehr schnell reagieren zu können und den Freiraum für Experimente zu haben, was bei großen Firmen so meist nicht der Fall ist. Ebenso haben kleinere Webmaster den Vorteil, sich eine kleine Nische suchen zu können, wo sie schnell ein Experte werden und den Status einer Autorität erreichen können.

Frage: Um bei Google gut zu ranken, sollte jeder Webmaster...

Matt: ...die Google Webmaster-Zentrale kennen. Ok - ich bin hier vielleicht etwas voreingenommen. Mit den Tools der Webmaster-Zentrale könnt ihr die Backlinks eurer Site prüfen, die Keywords erkennen, mit denen User nach eurer Site suchen, und ihr könnt Crawling-Fehler identifizieren, wie z. B. fehlerhafte Links oder Bereiche der Site, die nicht gecrawlt werden können. Es ist praktisch, wenn man einfach eine Übersicht haben kann, z. B. wo 404-Fehler auftreten. Außerdem könnt ihr mit den Webmaster-Tools verschiedene Statistiken aufrufen: Was ist der Abstand zwischen den Besuchen von Googlebot oder wieviele Seiten werden pro Tag gecrawlt. Eine meiner Lieblingsfunktionen ist, dass ihr eine Benachrichtigung bekommt, wenn wir glauben, dass ihr z. B. verborgenen Text habt oder sonstige Spam-Signale vorliegen - wenn eure Site beispielsweise gehackt wurde. Wir zeigen euch in solchen Fällen eine Mitteilung in unserem Nachrichten-Center an, das in verschiedenen Sprachen angeboten wird. So werdet ihr beispielsweise über URLs informiert, bei denen wir versteckten Text identifiziert haben. Wenn ihr das Problem behoben habt, könnt ihr direkt von den Webmaster-Tools aus einen Antrag auf erneute Überprüfung stellen. Es gibt hier also eine Menge praktischer Tools, mit denen ihr euch auf jeden Fall vertraut machen solltet - und sie sind alle kostenlos!

Frage: Gibt es Unterschiede zwischen den einzelnen Ländern, wie Google mit seinen Usern umgeht?

Matt: Jeder Markt ist verschieden. Ich denke, Google tut gut daran, diese Unterschiede wahrzunehmen und inzwischen gibt es bei Google auch eine Menge Leute, die sich mit solchen Fragen beschäftigen. Ich glaube, Google muss so aufmerksam wie möglich auf die Anforderungen und Besonderheiten der individuellen Märkte reagieren. Im Deutschen werden beispielsweise häufig mehrere Worte zu neuen Worten zusammengesetzt, was im Englischen nicht der Fall ist. Es werden also unterschiedliche Techniken angewandt, was sich auch in einer unterschiedlichen Rechtschreibprüfung niederschlägt und der Art und Weise, wie wir die jeweils relevantesten Dokumente in den verschiedenen Sprachen bestimmen. Ich finde es wunderbar, dass wir so international sind und wir unsere Webmaster-Tools in einer Vielzahl unterschiedlicher Sprachen anbieten - von Deutsch bis Chinesisch. Ich finde, wir sind sehr darum bemüht, auf die Besonderheiten der verschiedenen Märkte einzugehen und herauszufinden, wie wir dort ausgezeichnete Resultate liefern können. Einige unserer Mitarbeiter beteiligen sich aktiv an Diskussionsforen und ebenso bieten wir kostenlose Foren an, wo alle Webmaster ihr Feedback hinterlassen können. Wir nehmen euer Feedback aus allen Märkten sehr ernst - diese Art der offenen Kommunikation fand großen Zuspruch auf Seiten der Webmaster und User. Wir haben einige sehr talentierte Kollegen, die sich um diese Dinge kümmern und wir freuen uns, auf diese Weise mehr darüber zu erfahren, wie wir unsere Dienste verbessern können.

Frage: Schaust du bei allen Websites, die du besuchst, auch nach gekauften Links, die PageRank weitergeben?

Matt: Wir machen immer Witze darüber, dass, wenn du einmal gelernt hast, Spam zu erkennen, es so ist, als ob du alle Seiten mit einer Art Röntgenblick betrachtest und dich fragst, warum jemand genau diese Links gesetzt hat - das kann also ein Segen und Fluch zugleich sein, wenn einem ständig Dinge auffallen, die dem gewöhnlichen User vielleicht verborgen bleiben. Das ist etwas, was mir ständig passiert: Bei allen Websites schaue ich fast automatisch, was diese Site gut macht und was nicht. Manchmal beeinträchtigt das einfach auch den Genuss beim Surfen, da ich mir gar keine Site mehr ganz "unschuldig" anschauen kann - aber es hilft natürlich dabei, ständig etwas dazuzulernen. Wir bekommen auch viele Spam-Reports von Usern, was sehr nützlich für uns ist. Es hilft uns sehr, wenn User feststellen, wie wir unsere Suche noch weiter verbessern können und uns entsprechend Feedback geben.

Frage: Was ist die lustigste Frage, die dir bisher bei einer Konferenz gestellt wurde?

Matt: Eine meiner Lieblingsfragen war: "Ich habe hier eine Menge verschiedener Sites und habe sie auch gegenseitig verlinkt, aber sie ranken einfach nicht so gut in Google und eigentlich auch nicht bei Yahoo! und ich frage mich, was ich machen muss, um das Ranking meiner Sites zu verbessern." Auf der Konferenz saß ein Kollege von Yahoo! neben mir und fragte mit einem zynischen Blick: "Ok, du sprichst von vielen Sites - um wie viele handelt es sich genau? Sind es 5 oder 10? Wie viele denn?" Der Fragende machte daraufhin einen etwas betroffenen Blick und schaute sich kurz im Raum um, nur um dann zu verkünden, dass er 1500 Sites hat - woraufhin natürlich gleich ein großes Raunen durch den Saal ging.
Ebenso ist es immer wieder amüsant, wenn Leute Fragen stellen, um herauszufinden, wieviele Tricks man anwenden kann, ohne von uns entdeckt zu werden. Es ist so wie in der Schule, wenn der Schüler fragt, was denn die Fragen im nächsten Test sind. Diese Fragen gehen dann soweit, dass ich einfach nur sagen möchte: Ok - erstellt einfach eine gute Site, vermarktet sie gut und wendet "White-Hat" Optimierungstechniken an, dann könnt ihr auch ruhig schlafen und müsst euch nicht darum kümmern, wie weit ihr gehen könnt.

Frage: Angenommen, Google hätte alle Spam-Probleme gelöst und du hättest auf einmal eine Menge Zeit - was würdest du dann tun?

Matt: Ich bin total begeistert von Gadgets aller Art. Außerdem liebe ich Open Source, Ubuntu, Linux und all diese Dinge. Eine andere Sache, die ich wirklich mag, und das klingt vielleicht merkwürdig, sind alle Arten von Plug-ins: z. B. Firefox-Erweiterungen und Add-ons, Photoshop Plug-ins oder Wordpress Add-ons. Ich würde also viel Zeit damit verbringen, derartige kleine Plug-ins und Erweiterungen für alle möglichen Arten von Software zu schreiben. Es macht mir großen Spaß zu sehen, wie jemand ein Produkt bereitstellt, das von Usern erweitert, verändert und verbessert werden kann, um so die Funktionalitäten weit über den Rahmen des ursprünglichen Produkts auszuweiten. Wenn ich also unbegrenzt Zeit zur Verfügung hätte, würde ich sicher viel im Open Source Bereich machen und alle möglichen Plug-ins entwickeln.

Post von Juliane Stiller, Search Quality (Übersetzung des Interviews von Sven, Search Quality)

Mittwoch, 16. Juli 2008

Wie ihr in den Genuss der Webmaster-Tools kommt

Da nicht jeder Webmaster zu uns kommen kann, kommen wir stattdessen zu ihnen. Letzten November haben wir ein Pilot-Programm gestartet, das allen GoDaddy-Nutzern einfachen Zugang zum gesamten Funktionsumfang der Webmaster-Tools ermöglicht - direkt von ihrem Go-Daddy-Konto aus. Jetzt werden wir diese Möglichkeit weltweit anbieten.

Wir freuen uns, den Start des Webmaster-Tools Access Provider Programms bekanntzugeben. Hostingprovider, die dafür in Frage kommen, können nun mittels der Google APIs kostenlose Webmaster-Tools Konten für ihre Kunden anbieten. Teilnehmende Hostingprovider können dann ganz einfach an einem schicken "Webmaster-Tools Access Provider"-Logo erkannt werden.



Jetzt, wo die Webmaster-Tools in 26 Sprachen verfügbar sind, möchten wir Webhostingprovider auf der ganzen Welt zur Teilnahme einladen. So sind z. B. bereits die Kunden von IPOWER, StartLogic, PowWeb und Strato Teil unserer Webmaster-Community und haben nun direkten Zugang zu unseren praktischen Tools.

Wie könnt ihr davon profitieren?

Als Webmaster: Seid aufmerksam, ob euer Hostingprovider an diesem Programm teilnimmt, so dass beim nächsten Mal, wenn ihr eine neue Site startet, bereits alles entsprechend vorbereitet ist. Besser noch - schickt doch einfach einen Link zu diesem Post an euren Hoster, denn wir möchten dem Hoster dabei helfen, euch zu helfen.

Als Webhoster: Besucht doch einfach unsere Webmaster-Tools Access Provider-Site und meldet euch an!

Helping yourself to Webmaster Tools (English version)

Post von Peeyush Ranjan und Liza Ma, Webmaster Tools Team (Übersetzung von Sven, Search Quality)

Freitag, 11. Juli 2008

Einführung in Sachen Google-Ranking

Im Mai hat Udi Manber unser Search Quality Team vorgestellt, jene Gruppe innerhalb Googles also, die für das Ranking der Suchergebnisse verantwortlich ist. Er hat verschiedene Teams innerhalb von "Quality" (wie wir die Gruppe gerne nennen) angeführt, unter anderem Core Ranking, International Search, User Interfaces, Evaluation und Webspam. In diesem Post will ich euch mehr über eines dieser Teams erzählen: über das Core Ranking Team.

Zuerst stelle ich mich aber selbst mal vor: ich heiße Amit Singhal und bin derjenige Google Fellow, der die Verantwortung für das Ranking Team trägt. Ich arbeite seit 18 Jahren an Projekten im Zusammenhang mit Search. 1990 kam ich als Student das erste Mal mit Suche in Berührung. Im akademischen Umfeld nennt man diesen Bereich "Information Retrieval" (oder kurz IR). Nach einem Jahrzehnt als IR-Wissenschaftler kam ich im Jahr 2000 zu Google und arbeite seitdem am Google-Ranking.


Das Google-Ranking besteht aus einer Sammlung von Algorithmen, die dazu benutzt werden, die relevantesten Inhalte für Useranfragen zu finden. Täglich werden hunderte Millionen von Anfragen beantwortet - aus einem Datensatz von Milliarden und Abermilliarden von Webseiten. Diese Algorithmen arbeiten einen Großteil der Anfragen ab, die an unsere Google-Suchservices gerichtet werden. Während die Websuche der meistgenutzte und bekannteste davon ist, werden dieselben Algorithmen - mit einigen Modifikationen - auch für andere Google-Suchservices benutzt, etwa für Bilder, News, Youtube, Maps, Produktsuche, Buchsuche und mehr.


Die Frage, die mir bezüglich des Google-Rankings am häufigsten gestellt wird, ist "Wie macht ihr das?" Selbstverständlich braucht es einiges, um ein State-of-the-Art-Ranking-System wie das unsere aufzubauen, und ich werde in einem kommenden Post einen tieferen Einblick in die Technologie dahinter geben. Heute will ich kurz die Philosophie hinter dem Google-Ranking umreißen:

  1. Liefere weltweit die besten lokal relevanten Resultate.
  2. Halte es einfach.
  3. Kein Eingriff von Menschenhand.
Prinzip Nummer eins erklärt sich von selbst. Mit unserer Leidenschaft für die Suche wollen wir sicherstellen, dass jede Suchanfrage die relevantesten Suchergebnisse bringt. Wir nennen es das "No query left behind"-Prinzip. Sollten wir einmal nicht das ideale Ergebnis für eine Anfrage, egal in welcher Sprache oder in welchem Land, liefern - und das passiert (schließlich ist Search keinesfalls ein bereits gelöstes Problem) - sehen wir das als Inspirationsquelle für Verbesserungen.

Das zweite Prinzip erscheint ebenfalls klar. Ist es nicht der Wunsch aller Systemarchitekten, ihre Systeme einfach zu halten? Tja, was Suchsysteme betrifft - bedenkt man die große Bandbreite von Useranfragen, die wir in einer Vielzahl von Sprachen beantworten - kann es schnell passieren, dass die Komplexität schleichend zunimmt. Wir arbeiten sehr hart daran, unsere Systeme einfach zu halten, ohne die Qualität der Suchergebnisse zu beeinträchtigen. Das ist eine permanente Anstrengung, die sich auszahlt. Jede Woche führen wir an die zehn Änderungen am Ranking durch und ein wichtiger Faktor beim Launch jeder dieser Änderungen ist, alles einfach zu halten. Unsere Programmierer wissen genau, warum eine Seite für eine bestimmte Suchanfrage so rankt, wie sie es tut. Dieses einfach nachvollziehbare System ermöglicht es uns, schnell neue Innovationen einzuführen. Das macht sich bemerkbar. Die "Keep it simple"-Philosophie hat sich bewährt.


Keine Diskussion über Googles Ranking wäre vollständig, wenn nicht die häufig gestellte - aber irreführende! :) - Frage auftauchen würde: "Bearbeitet Google die Suchergebnisse durch menschlichen Eingriff?" Durch den dritten Punkt unserer Philosophie lässt sich sich diese Frage schnell beantworten: kein Eingriff von Menschenhand.


Unserer Ansicht nach wird das Web von Menschen gestaltet. Ihr seid diejenigen, die Websites online stellen und diese verlinken. Durch unsere Algorithmen machen wir uns diesen menschlichen Beitrag zunutze. Indem unsere Algorithmen den Input der gesamten Internet-Community verwerten, führen sie das abschließende Sortieren der Resultate durch, nicht durch unseren manuellen Eingriff. Wir sind der Meinung, das subjektive Urteil eines jeden Individuums ist, nun ja ... subjektiv und die Informationen, die unsere Algorithmen aus dem allumfassenden, in Webseiten und ihren Links enthaltenen, Wissen der Menschheit beziehen, sind nützlicher als individuelle Subjektivität.


Der zweite Grund, warum wir aus Prinzip gegen eine manuelle Anpassung unserer Resultate sind, ist die Tatsache, dass ein fehlerhaftes Suchergebnis nur ein Symptom für eine potentielle Verbesserungsmöglichkeit unserer Ranking-Algorithmen ist. Indem man den zu Grunde liegenden Algorithmus verbessert, verbessert man nicht nur ein Ergebnis, sondern die Ergebnisse für eine ganzen Klasse von Suchanfragen - und das in vielen Fällen für alle Sprachen. Ich möchte aber hinzufügen, dass es klar formulierte
Richtlinien von Google für Websites gibt, und dass wir gegen Verstöße gegen unserer Richtlinien sowie aus einer kleinen Anzahl anderer Gründe (z. B. gesetzliche Bestimmungen, Kinderpornographie, Viren und Malware, usw.) Maßnahmen ergreifen.

Bleibt auf jeden Fall dran, denn in meinem nächsten Post werde ich genauer auf die Technologie hinter unserem Ranking eingehen und Beispiele für mehrere innovative Rankingtechniken liefern! Für heute habe ich zum Abschluss nur hinzuzufügen, dass unser Leidenschaft für Search stärker ist als jemals zuvor - und dass ich als Search-Forscher den besten Job der Welt habe :-).


Introduction to Google Ranking (English version)

Post von Amit Singhal, Google Fellow (Übersetzung von Jörg, Search Quality)

Donnerstag, 10. Juli 2008

Das Search Quality Team auf der SES Hamburg

Die Search Engines Strategies (SES) Konferenz fand am 23. und 24. Juni in Hamburg statt. Ich war zusammen mit meinen Kollegen Stefanie und Jan vom deutschen Search Quality Team vor Ort und wir haben uns sehr darüber gefreut, mit vielen Webmastern zu sprechen!

Stefanie auf dem Google CampusStefanie sprach auf der SES Hamburg

Es gab viele interessante Veranstaltungen und Stefanie hat auch eine Präsentation gegeben. Im Panel "Suchmaschinenfreundliches Design" sprach sie darüber, wie man Sites suchmaschinen- und benutzerfreundlicher gestalten kann und wie die Webmaster-Tools hilfreich dafür sein können. Sie erläuterte die Vorteile von
Sitemaps und die Besonderheiten beim Crawlen von Rich-Media-Content wie etwa Flash und präsentierte einen Überblick über unsere Webmaster-Zentrale.

Mehr noch als über all die interessanten Präsentationen haben wir uns darüber gefreut, dass wir die Gelegenheit hatten, uns mit vielen Konferenzteilnehmern zu unterhalten. Ein großes Thema war dabei Universal Search. Immer mehr Videos, Karten, Bilder, News und Bücher erscheinen in den Suchergebnissen und bieten den Usern so ein besseres Sucherlebnis. Einige Tipps, wie man als Webmaster Universal Search am besten nutzen kann, findet ihr in diesen Posts von
Vanessa und Susan.

Vielen Dank an alle, mit denen wir gesprochen haben! Wir haben uns sehr darüber gefreut, eure Fragen zu beantworten und haben wertvolles Feedback von euch bekommen. Falls ihr nicht auf der SES wart oder noch Fragen habt, die ihr uns gerne stellen würdet, besucht uns in unserer
Diskussionsgruppe für Webmaster!

Post von Uli Lutz, Search Quality Team

Freitag, 4. Juli 2008

Welche Ratschläge habt ihr für die Suche nach einem SEO?

Ihr habt vielleicht schon bemerkt, dass wir unseren Artikel über “Was ist ein SEO? Empfiehlt Google die Unterstützung von Firmen, die anbieten, meine Website Google-freundlich zu gestalten?” vor kurzem umgeschrieben haben. Davor hat sich der Artikel darauf konzentriert, auf verbreitete SEO-Betrügereien aufmerksam zu machen. Die vielen nützlichen Services, die ein hilfreicher SEO bereitstellen kann, wurden jedoch nicht erwähnt.

Der Artikel nennt nun einige Vorteile der Suchmaschinenoptimierung und gibt Hilfestellungen für Website-Inhaber, die erwägen, einen SEO zu engagieren. Wir wollen auch euren Blickwinkel kennen lernen: Wie würdet ihr SEO definieren? Welche Fragen würdet ihr einem künftigen SEO stellen? Welchen Rat würdet ihr einem unerfahrenen Webmaster geben, der überlegt, einen SEO zu beauftragen? Wir würden gerne eure Überlegungen hören und eure Rückmeldungen einbeziehen, falls es wichtige Ratschläge gibt, die wir noch mit aufnehmen sollten.


What are your SEO recommendations? (English version)

Post von John, Jonathan und Susan, Webmaster Trends Analysts (Übersetzung von Michael, Search Quality)

Donnerstag, 3. Juli 2008

Antrag auf erneute Überprüfung in den Google Webmaster-Tools

Wenn eure Site nicht in den Google Suchergebnissen auftaucht, dann seid ihr wohl verständlicherweise besorgt. Wir haben hier einige Informationen zusammengestellt, die euch dabei helfen sollen zu bestimmen, wann und wie ihr einen Antrag auf erneute Überprüfung eurer Site einreichen könnt. Ihr könnt mitverfolgen, wie Bergy (der Webmaster von example.com in unserem Video) herauszufinden versucht, ob er für seinen Blog über altrömische Politik einen Antrag auf erneute Überprüfung einreichen muss. Natürlich lassen sich nicht die Probleme aller Webmaster auf Wysz zurückführen (-:, aber die einfachen Schritte, die wir unten aufgeführt haben, können euch helfen, die richtige Lösung für euren bestimmten Fall zu finden.



Ü
berprüft Zugangsprobleme

Es lohnt sich zu überprüfen, ob es Zugangsprobleme mit eurer Site gibt - ihr könnt dies tun, indem ihr euch in euer Webmaster-Tools-Konto einloggt. Auf der Übersichtsseite könnt ihr sehen, wann Googlebot das letzte Mal erfolgreich die Homepage eurer Site gecrawlt hat. Ein anderer Weg ist es, das Cache-Datum der Homepage eurer Site zu prüfen. Detailliertere Informationen dazu, wie Googlebot eure Site crawlt, könnt ihr auch aus den Graphen der Crawling-Geschwindigkeit erschließen (diese findet ihr in Tools > Crawling-Geschwindigkeit festlegen).

Auf der Übersichtsseite könnt ihr auch sehen, ob es Crawling-Fehler für eure Site gibt. Falls beispielsweise euer Server zum Zeitpunkt des Zugriffs überlastet oder nicht erreichbar war, dann würdet ihr die Fehlernachricht "URL nicht erreichbar" erhalten. Es könnte auch sein, dass URLs eurer Site durch die robots.txt-Datei blockiert sind. Ihr könnt dies in "URLs durch robots.txt eingeschränkt" sehen. Falls dort unerwartete URLs gelistet sind, dann könnt ihr unter Tools "robots.txt analysieren" auswählen - dort könnt ihr sicherstellen, dass eure robots.txt-Datei ordentlich formatiert ist und nur diejenigen Teile eurer Site blockiert, die Google nicht crawlen soll.


Zusätzlich zu den bereits erwähnten Beispielen gibt es weitere Arten von Crawling-Fehlern, wie etwa HTTP-Fehler oder URL-Zeitüberschreitungs-Fehler. Auch wenn wir hier nicht auf alle eingehen, werdet ihr Benachrichtigungen für alle diese Fehler in der Übersichtsseite in eurem Webmaster-Tools-Konto sehen.


Seht nach, ob ihr Benachrichtigungen habt


Falls Google keine Probleme mit dem Zugriff auf eure Site hat, dann überpr
üft, ob ihr eventuell Benachrichtigungen im Nachrichten-Center eures Webmaster-Tools-Kontos habt. Über das Nachrichten-Center teilt euch Google wichtige Informationen über euer Webmaster-Tools-Konto und über die von euch betreuten Sites mit. Falls wir bemerkt haben, dass mit eurer Site etwas nicht in Ordnung ist, dann können wir euch hier eine Benachrichtigung hinterlegen, in der wir genauer darauf eingehen, was ihr ändern müsst, um eure Site in Übereinstimmung mit den Richtlinien für Webmaster zu bringen.

Lest die Richtlinien für Webmaster


Falls ihr keine Nachricht im Nachrichten-Center seht, dann überprüft, ob eure Site gegen die
Richtlinien für Webmaster verstößt. Ihr könnt die Richtlinien und noch mehr Informationen in unserer Hilfe für Webmaster finden.

Bringt eure Site in Ordnung


Falls eure Site gegen die Richtlinien für Webmaster verstößt und ihr denkt, dass dies einen Einfluss darauf haben könnte, wie Google eure Site sieht, dann wäre dies ein guter Moment, um einen Antrag auf erneute Überprüfung einzureichen. Macht jedoch davor die nötigen Änderungen an eurer Site, damit sie mit unseren Richtlinien übereinstimmt.


Reicht einen Antrag auf erneute Überprüfung ein


Jetzt könnt ihr einen Antrag auf erneute Überprüfung einreichen. Loggt euch in euer Webmaster-Tools-Konto ein. Klickt unter Tools auf "Antrag auf erneute Überprüfung" und folgt den weiteren Schritten. Stellt sicher, dass ihr erklärt, was eurer Meinung nach mit eurer Site nicht gestimmt hat und welche Schritte ihr unternommen habt, um dies zu beheben.


Wenn ihr einmal euren Antrag eingereicht habt, dann seht ihr eine Empfangsbestätigung von uns im Nachrichten-Center. Wir werden eure Site dann daraufhin überprüfen, ob sie mit den Richtlinien für Webmaster übereinstimmt.


Wir hoffen, dass dieser Post euch dabei geholfen hat, einen Überblick zu bekommen, wann und wie ihr einen Antrag auf erneute Überprüfung einreichen könnt. Falls ihr nicht sicher seid, warum Google eure Site nicht indexiert, dann ist das Diskussionsforum für Webmaster ein guter Ort, um weitere Hilfe zu erhalten. Ihr könnt dort viele kompetente und freundliche Webmaster und Googler finden, die sich darüber freuen, einen Blick auf eure Site zu werfen und Tipps zu geben, wir ihr Dinge in Ordnung bringen könnt. Auf google.de/webmasters könnt ihr Links sowohl zum Hilfe-Center als auch zum Diskussionsforum für Webmaster finden.

Requesting reconsideration using Google Webmaster Tools (English version)

Post von Mariya Moeva, Search Quality (Übersetzung von Claudia, Search Quality)

Mittwoch, 2. Juli 2008

Verbesserte Indexierung von Flash-Content

Wir haben zahlreiche Anfragen erhalten, die Indexierung von Adobe-Flash-Dateien zu verbessern. Ron Adler und Janis Stipins - Software-Ingenieure unseres Indexing Teams - geben uns hier weitergehende Informationen zu unserer aktuellen Ankündigung bezüglich unserer deutlich verbesserten Möglichkeiten bei der Indexierung von Flash-Content.

Frage: Welche Arten von Flash-Dateien kann Google jetzt besser indexieren?
Wir haben unsere Fähigkeit verbessert, Text-Content in SWF-Dateien aller Art zu indexieren. Das beinhaltet "Flash-Gadgets" wie beispielsweise Buttons oder Menüs, reine Flash-Sites und alles, was dazwischen liegt.

F: Welchen Content aus diesen Flash-Dateien kann Google jetzt besser indexieren?
Jeglichen Text, den die User sehen können, wenn sie mit eurer Flash-Datei interagieren. Wenn eure Site Flash beinhaltet, kann der Text-Content in euren Flash-Dateien als Grundlage dienen, wenn Google ein Snippet für eure Site erzeugt. Darüber hinaus können die Worte in euren Flash-Dateien mit den Suchbegriffen einer Google-Suche abgeglichen werden.

Zusätzlich dazu, dass wir nun Text-Content finden und indexieren, besteht jetzt auch die Möglichkeit, dass wir URLs in euren Flash-Dateien erkennen. Diese URLs werden in unsere Crawling-Pipeline eingespeist - genauso, wie wir das mit URLs machen, die auf Sites ohne Flash auftauchen. Falls z. B. eure Flash-Anwendung Links zu anderen Seiten eurer Site enthält, sind wir nun besser in der Lage, diese Links zu entdecken und größere Teile eurer Site zu crawlen.

F: Wie verhält es sich mit nicht-textlichem Content wie beispielsweise Bildern?
Gegenwärtig erkennen und indexieren wir ausschließlich Text-Content aus Flash-Dateien. Wenn eure Flash-Dateien nur aus Bildern bestehen, werden wir nicht in der Lage sein, in diesen Bildern enthaltene Texte zu erkennen oder zu indexieren. Ausserdem erstellen wir keinen Anchor-Text für Flash-Buttons, die eine URL verlinken, aber keinen weiteren damit verknüpften Text aufweisen.

Beachtet auch, dass wir keine FLV-Dateien, wie sie z. B. bei den Videos auf YouTube verwendet werden, indexieren, da diese Dateien keinerlei Textelemente enthalten.

F: Wie "sieht" Google den Content einer Flash-Datei?
Wir haben einen Algorithmus entworfen, der Flash-Dateien auf die gleiche Art und Weise erkundet, wie ein User dies tun würde, indem z. B. Buttons geklickt werden, Eingaben getätigt werden, usw. Unser Algorithmus speichert jeglichen Text, der ihm begegnet, und dieser Text steht daraufhin für die Indexierung zur Verfügung. Wir können euch nicht alle Einzelheiten nennen, können euch aber sagen, dass die Effektivität des Algorithmus durch die Verwendung von Adobes neuer durchsuchbaren Flash-Bibliothek verbessert wurde.

F: Was muss ich tun, damit Google den Text in meinen Flash-Dateien indexiert?
Im Prinzip braucht ihr überhaupt nichts zu tun. Unsere aktuellen Verbesserungen erfordern keinerlei besondere Maßnahmen von Seiten der Webdesigner oder Webmaster. Falls ihr Flash-Content auf eurer Site habt, werden wir automatisch beginnen, ihn zu indexieren - was allerdings im Rahmen unserer gegenwärtigen technischen Möglichkeiten geschieht (siehe nächste Frage).

Ihr solltet euch jedoch bewusst sein, dass Google nun in der Lage ist, den Text zu erkennen, den auch die Besucher eurer Site sehen. Wenn ihr bevorzugt, dass eure weniger informativen Texte wie z. B. "Copyright"- oder "Wird geladen"-Meldungen nicht erfasst werden, dann könnt ihr diese Texte in einem Bild unterbringen. Dadurch werden diese Texte für uns quasi unsichtbar.

F: Was sind die aktuellen technischen Einschränkungen bei Googles Möglichkeiten, Flash zu indexieren?
Aktuell gibt es im Wesentlichen drei Einschränkungen, an denen wir aber bereits arbeiten:

1. Googlebot kann bestimmte Arten von JavaScript nicht ausführen. Falls eure Seite eine Flash-Datei mittels JavaScript lädt, kann es sein, dass wir die Flash-Datei nicht erkennen, was dazu führt, dass sie nicht indexiert wird.

2. Gegenwärtig wird Content, der von externen Quellen in euren Flash-Film geladen wird, nicht mit eurem Flash-Film verknüpft. Falls eure Flash-Datei eine HTML-Datei, XML-Datei oder eine andere SWF-Datei lädt, dann werden wir diese Ressource separat indexieren, aber noch nicht als Teil des Contents eurer Flash-Datei betrachten.

3. Obwohl wir bereits in der Lage sind, Flash-Content in fast allen im Web zu findenden Sprachen zu indexieren, kann es aktuell noch zu Schwierigkeiten bei der Indexierung von Content in bidirektionalen Sprachen kommen. Bis diese Probleme behoben sind, werden wir nicht in der Lage sein, hebräischen oder arabischen Text aus Flash-Dateien zu indexieren.

Wir machen jedoch bereits Fortschritte bei der Behebung der genannten Punkte - stay tuned!

Improved Flash indexing (English version)

Post von Ron Adler, Janis Stipins und Maile Ohye (Übersetzung von Sven, Search Quality)

Update: Danke für euer Feedback und eure Fragen. Unser Ziel ist es, die Suchqualität für alle User zu verbessern und durch die verbesserte Indexierung des Flash-Contents können wir noch aussagekräftigere Suchergebnisse anbieten. Nachfolgend findet ihr Antworten auf die häufigsten Fragen.

Flash-Site in den Suchergebnissen vor der Einführung der Flash-Indexierung

Flash-Site in den Suchergebnissen nach der Einführung der Flash-Indexierung - Suchanfrage [nasa deep impact animation]

@Wehrli: Bei der Einführung der neuen Funktionalität am 1. Juli wurden Flash-Dateien, die mittels SWFObject in eine Seite eingebunden sind, noch nicht indexiert. Wir sind gerade dabei, ein Update einzuführen, das Unterstützung für gängige Techniken bietet, um Flash mittels JavaScript einzubinden. Dabei werden auch SWFObject und SWFObject2 unterstützt.
Gegenwärtig wird Content, der dynamisch von externen Ressourcen geladen wird, noch nicht indexiert - wir arbeiten aber bereits an einem diesbezüglichen Update.

Weitere Punkte basierend auf Fragen aus dem englischen Blog:
  • Indexierung von älterem Flash-Content: Texte aus älteren Flash-Sites, die mittels AS1 oder AS2 erstellt wurden, können indexiert werden.

  • Flash-Content im Vergleich zu HTML, PDFs usw.: Texte, die wir in Flash-Dateien finden, werden gleich behandelt wie Texte aus anderen Dateien, z. B. HTML, PDF usw. Wenn eine Flash-Datei in einer HTML-Seite eingebunden ist, wird der Content aus der Flash-Datei mit der URL der HTML-Seite verknüpft und als eine Einheit indexiert.

  • Duplicate Content: Wenn identischer Content innerhalb von Flash und einer alternativen HTML-Version verwendet wird, kann das bedeuten, dass wir Duplicate Content erkennen. Das hat keinen Nachteil zur Folge - das Ranking einer Site wird durch diesen Duplicate Content nicht verändert. Allerdings wird in den Suchergebnissen mit großer Wahrscheinlichkeit nur eine der Versionen auftauchen.

  • Flash-Content in Suchergebnissen: Wir versuchen, unseren Usern die relevantesten Suchergebnisse zu liefern - unabhängig vom Dateityp. Dies bedeutet, dass reine Flash-Dateien, Flash-Dateien eingebettet in HTML, HTML-Seiten, PDFs usw. alle in den Suchergebnissen auftauchen können.

  • Deep-Linking: Wir hatten zahlreiche Anfragen bezüglich Deep-Linking (das Verlinken von Content innerhalb einer Datei) - nicht nur für Flash, sondern auch bei anderen großen Dokumenten und Präsentationen. Im Fall von Flash wird für Deep-Linking zusätzliche Funktionalität innerhalb von Flash benötigt, auf die wir dann aufsetzen können.

  • Dateigröße: Die Mehrzahl der Flash-Dateien im Netz bereitet keine Probleme bezüglich der Dateigröße. Normalerweise gibt es bei diesem Punkt nicht viel zu beachten.

  • Flash-Indexierung/Actionscript: Wir sind in der Lage, neue Links zu finden, die mittels ActionScript erstellt wurden. Wir betrachten den Flash-Content ähnlich wie ein gewöhnlicher Besucher der Site - die SWF-Datei wir dabei nicht dekompiliert. Durch die Indexierung machen wir keinerlei ActionScript-Code sichtbar.

  • Nofollow: Wir beachten das rel="nofollow"-Attribut, wann immer wir es im HTML-Code erkennen.

Dienstag, 1. Juli 2008

Datennutzung zur Bekämpfung von Webspam

Als Leiter des Google Webspam Teams ist es meine Aufgabe sicherzustellen, dass eure Suchergebnisse so relevant und informativ wie möglich sind. Als Webspam bezeichnen wir den Schrott, den ihr in den Suchergebnissen sehen könnt, wenn es Websites gelingt, mittels Tricks eine hohe Position in den Suchergebnissen zu erschleichen oder anderweitig gegen unsere Qualitätsrichtlinien verstoßen. Falls ihr noch nie Webspam gesehen habt, findet ihr hier ein gutes Beispiel dafür, was sich hinter einem Link verbergen kann, der zu Spam führt (klickt auf das Bild für eine größere Version).


Es ist offensichtlich, wie wenig hilfreich eine solche Seite ist. Das Beispiel beinhaltet so gut wie keinen organischen Content und bietet kaum nützliche Informationen für die User. Wir arbeiten hart daran, dass ihr solche Suchergebnisse nur selten zu Gesicht bekommt. Stellt euch vor, wie frustrierend es für euch wäre, auf einen Link in unseren Suchergebnissen zu klicken und schließlich auf einer derartigen Site zu landen.

Heutzutage begegnet den Suchenden solch offensichtlicher Spam nur noch selten in den Ergebnissen. Webspam war noch ein wesentlich größeres Problem, bevor Google populär wurde und bevor es uns gelang, effektive Anti-Spam-Methoden zu entwickeln. Webspam kann generell recht frustrierend sein, wenn beispielsweise die Suche nach dem eigenen Namen als Ergebnis lauter Links zu Seiten mit pornografischem Content liefert. Es gibt jedoch auch zahlreiche Suchvorgänge, bei denen es noch viel wichtiger ist, relevante Suchergebnisse zu erhalten, und wo Spam ein ernstes Problem darstellt. Wenn z. B. eine Suche nach Prostatakrebs überwiegend Spam anstelle von relevanten Links liefert, dann mindert das erheblich den Nutzen einer Suchmaschine als hilfreiches Tool.

Die Logs aus früheren Suchvorgängen sind ein Werkzeug, das wir nutzen, um Webspam zu bekämpfen und sauberere und relevantere Ergebnisse zu liefern. Archivierte Daten wie z. B. IP-Adressen und Cookie-Informationen ermöglichen es uns, Bewertungsgrundlagen zu erstellen, anhand derer wir die verschiedenen Aspekte unserer Suchqualität messen können (wie z. B. Indexgröße und Reichweite, die "Frische" der Ergebnisse und Spam).

Wann immer wir eine neue Bewertungsgrundlage erstellen, ist es wichtig, dass wir dazu unsere archivierten Daten aus früheren Suchanfragen oder Ergebnisseiten zur Berechnung der neuen Spam-Daten nutzen. Wir nutzen unsere archivierten Suchdaten, um einen Blick in die Vergangenheit zu werfen, damit wir ermitteln können, wie gut wir bei Suchanfragen von vor einigen Monaten waren. Wenn wir eine neue Bewertungsgrundlage erstellen, um eine neue Art von Spam genauer zu erfassen, dann messen wir nicht nur unsere diesbezüglichen Fortschritte, sondern werten auch die archivierten Daten aus, um festzustellen, wie gut wir mit dieser Art von Spam in den vorigen Monaten und Jahren umgegangen sind.

Die Informationen bezüglich IP-Adresse und Cookies sind für uns wichtig, da sie uns dabei helfen, die oben beschriebenen Methoden nur auf Suchanfragen von "echten" Usern anzuwenden - im Gegensatz zu Suchanfragen, die z. B. durch Bots generiert wurden. Wenn beispielsweise ein Bot ununterbrochen identische Suchanfragen an Google richtet, dann sollten diese eher vernachlässigt werden, wenn wir ermitteln, wie viel Spam unsere User zu Gesicht bekommen. Dies alles – archivierte Suchdaten, IP-Adressen und Cookie-Daten – sorgt dafür, dass eure Suchergebnisse sauberer und relevanter werden.

Falls ihr glaubt, das Problem des Webspam wäre bereits gelöst, dann irrt ihr euch. Letztes Jahr hatten wir mit einem riesigen Anstieg von chinesischen Spam-Domains zu kämpfen. Einige Spammer kauften riesige Mengen billiger .cn-Domains und packten sie voll mit Schreibfehlern und pornografischen Begriffen. Die eingefleischten Webmaster unter euch können sich wahrscheinlich an diverse Blogposts darüber erinnern, aber die meisten User haben davon überhaupt nichts mitbekommen. Der Grund, weshalb die meisten User unserer Suche diese ungewöhnlichen Suchergebnisse gar nicht bemerkten, ist, dass wir den .cn-Spam frühzeitig erkannt und diesem mit schnell eingeleiteten Entwicklungsmaßnahmen entgegengewirkt haben. Ohne die Logdaten, mit deren Hilfe wir mehr über die Geschwindigkeit und den Umfang des Problems erfahren konnten, wären sicher deutlich mehr Google-User von dieser Spam-Attacke betroffen gewesen.

Im Idealfall braucht die große Mehrzahl unserer User gar nicht zu wissen, dass es bei Google ein Webspam Team gibt. Wenn wir unsere Arbeit gut machen, dann seht ihr vielleicht von Zeit zu Zeit mal ein paar Resultate von minderer Qualität, aber irreführende JavaScript-Weiterleitungen, unerwünschte pornografische Inhalte, Seiten mit unzusammenhängendem Kauderwelsch oder andere Arten von Spam bleiben euch verborgen. Eure archivierten Suchanfragen helfen uns, neue Spam-Trends zu erkennen und an entsprechenden Gegenmaßnahmen zu arbeiten, noch bevor der Spam die Qualität eurer Sucherfahrung mindert.

Using data to fight webspam (English version)

Post von Matt Cutts, Software-Ingenieur (Übersetzung von Sven, Search Quality)