Google-Bot und Counter

Drrichardfahrer · 17 August 2008

Ich hab mir einen Counter mit Reloadsperre programmiert und stellte nun gestern fest, dass der Googlebot mit all seinen IPs meine Seite täglich mehrmals besucht.

Nun will ich durchaus, dass meine Seite in Google gelistet ist, etc. aber eben der Counter soll nicht gehoben werden wenn ein Googlebot die Seite besucht.

Wie kann ich das nun möglichst einfach proggen??

paddya · 17 August 2008

Du könntest den Counter nur hochzählen, wenn "googlebot" NICHT in $_SERVER['HTTP_USER_AGENT'] vorkommt. Am besten überprüfst du gleich auf alle möglichen Robots.

Greetz

paddya

Graccem · 17 August 2008

paddya schrieb:
Du könntest den Counter nur hochzählen, wenn "googlebot" NICHT in $_SERVER['HTTP_USER_AGENT'] vorkommt. Am besten überprüfst du gleich auf alle möglichen Robots.

Greetz

paddya

Damit kannst du aber nur den Googlebot erwischen, wenn er sich als eben dieser ausgibt. Das tut er aber nicht immer.

Alternativ kann man den Counter auch mittels JS machen. Dann tauchen keine Bots mehr auf, da diese JS ignorieren. Hier fallen aber dann die Leute raus, die ohne (bzw. mit eingeschränktem) JS surfen.

LasMiranda · 17 August 2008

Ist das nicht egal, ob es nun ein Bot ist, oder nicht? Der besucht im Grunde genommen die Seite genau wie alle anderen auch. Und in geraumer Zeit werden auch sicherlich JavaScript-Sachen ausgewertet werden, obwohl ich das nicht so toll finde, denn wenn eine Seite ohne JavaScript nicht bedienbar, dann ist das für mich keine Webseite.
Für heißt Webseite: von so vielen Geräten wie möglich aufrufbar.

morpheus1510 · 17 August 2008

LasMiranda schrieb:
Ist das nicht egal, ob es nun ein Bot ist, oder nicht?

Nein, ist es nicht...
Evtl. Sponsoren (z.B.) sind lediglich an echten "Unique"-Visits interessiert und nicht an Bots, die ja nunmal keine echten Besucher der Seite sind.

Ich denke, es gibt noch einige Gründe mehr, warum einem sowas nicht egal sein kann.

paddya · 17 August 2008

Graccem schrieb:
Damit kannst du aber nur den Googlebot erwischen, wenn er sich als eben dieser ausgibt. Das tut er aber nicht immer.

Perfekt ist keine Lösung. Natürlich kann man auch noch die IP checken, die Frage ist, ob sich der Aufwand lohnt.
Und so oft wird der Googlebot auch nicht als "Mozilla Firefox" aufkreuzen...

Greetz

paddya

Banane · 17 August 2008

Graccem schrieb:
Dann tauchen keine Bots mehr auf, da diese JS ignorieren.

Möglicherweise nicht mehr, es gibt Vermutungen wonach der Googlebot nun fallweise/teilweise auch JS auswertet.
:arrow:

https://www.seomoz.org/ugc/new-reality-google-follows-links-in-javascript-4930

theHacker · 18 August 2008

paddya schrieb:
Perfekt ist keine Lösung. Natürlich kann man auch noch die IP checken, die Frage ist, ob sich der Aufwand lohnt.

Naja, is eine DNS-Abfrage und bei vielen Besuchern kann man sich ja überlegen, ob man einen Cache anlegt.

Googlebot ist es, wenn er von googlebot.com kommt. Siehe auch hier:
https://www.google.com/support/webmasters/bin/answer.py?answer=80553

paddya · 18 August 2008

Google doesn't post a public list of IP addresses for webmasters to whitelist. This is because these IP address ranges can change, causing problems for any webmasters who have hard coded them. The best way to identify accesses by Googlebot is to use the user-agent (Googlebot).

Das ist doch im Prinzip meine Aussage...

Greetz

paddya

ice-breaker · 18 August 2008

JavaScript ist und bliebt die sicherste Methode, da Bots wenn nur ganz spärlich JavaScript scannen
Von einem Ausführen von JS-Code und dem Injecten eines Image-Elementes im DOM was die Besucherzahl um 1 incremented sind Bots noch weit entfernt.

TheRed · 18 August 2008

Zudem kommt noch die Tatsache, dass es weitaus mehr als nur google als Spider gibt. Habe momentan 390+ in meiner Datenbank eingetragen.

Also könntest du wie bereits vorgeschlagen, JavaScript benutzen oder halt eine Tabelle mit allen Spider anlegen und diese für das Increment des Counters sperren.

Graccem · 18 August 2008

Banane schrieb:
Möglicherweise nicht mehr, es gibt Vermutungen wonach der Googlebot nun fallweise/teilweise auch JS auswertet.
https://www.seomoz.org/ugc/new-reality-google-follows-links-in-javascript-4930

Laut deiner URI werden aber wohl nur Teile verwendet.

It looks like Google's crawler executes only the parts of your JavaScript that have to do with links and skips the rest code.
...
So I assume Google's crawler is not equipped with a full-featured JavaScript interpreter. It just parses JavaScript, finds links, and maybe executes some reduced set of commands, for example, to concatenate strings.

Also wird JS schon die erste Wahl sein, wenn man Bots i.A. raus filtern möchte.

paddya schrieb:
Perfekt ist keine Lösung. Natürlich kann man auch noch die IP checken, die Frage ist, ob sich der Aufwand lohnt.
Und so oft wird der Googlebot auch nicht als "Mozilla Firefox" aufkreuzen...

Greetz

paddya

Die Wahl der IP ist noch schlechter. Die getarnten Bots wirst du ohnehin weder an der IP noch an der Kennung erfassen. Google nutzt sie, um Webseiten aufzuspüren, die Cloaking betrieben. Und da können sie gar nicht als Google auftreten

Google-Bot und Counter

Drrichardfahrer

Well-known member

paddya

Well-known member

Graccem

* {display:none;}

LasMiranda

kanz pöhse

morpheus1510

Well-known member

paddya

Well-known member

Banane

…?

theHacker

sieht vor lauter Ads den Content nicht mehr

paddya

Well-known member

ice-breaker

return void

TheRed

Active member

Graccem

* {display:none;}

Ähnliche Themen