Google-Bot und Counter

Drrichardfahrer

Well-known member
ID: 207405
L
20 April 2006
7.060
691
Ich hab mir einen Counter mit Reloadsperre programmiert und stellte nun gestern fest, dass der Googlebot mit all seinen IPs meine Seite täglich mehrmals besucht.

Nun will ich durchaus, dass meine Seite in Google gelistet ist, etc. aber eben der Counter soll nicht gehoben werden wenn ein Googlebot die Seite besucht.

Wie kann ich das nun möglichst einfach proggen?? :)
 
Du könntest den Counter nur hochzählen, wenn "googlebot" NICHT in $_SERVER['HTTP_USER_AGENT'] vorkommt. Am besten überprüfst du gleich auf alle möglichen Robots.

Greetz

paddya

Damit kannst du aber nur den Googlebot erwischen, wenn er sich als eben dieser ausgibt. Das tut er aber nicht immer.

Alternativ kann man den Counter auch mittels JS machen. Dann tauchen keine Bots mehr auf, da diese JS ignorieren. Hier fallen aber dann die Leute raus, die ohne (bzw. mit eingeschränktem) JS surfen.
 
Ist das nicht egal, ob es nun ein Bot ist, oder nicht? Der besucht im Grunde genommen die Seite genau wie alle anderen auch. Und in geraumer Zeit werden auch sicherlich JavaScript-Sachen ausgewertet werden, obwohl ich das nicht so toll finde, denn wenn eine Seite ohne JavaScript nicht bedienbar, dann ist das für mich keine Webseite.
Für heißt Webseite: von so vielen Geräten wie möglich aufrufbar.
 
Damit kannst du aber nur den Googlebot erwischen, wenn er sich als eben dieser ausgibt. Das tut er aber nicht immer.

Perfekt ist keine Lösung. Natürlich kann man auch noch die IP checken, die Frage ist, ob sich der Aufwand lohnt.
Und so oft wird der Googlebot auch nicht als "Mozilla Firefox" aufkreuzen...

Greetz

paddya
 
Google doesn't post a public list of IP addresses for webmasters to whitelist. This is because these IP address ranges can change, causing problems for any webmasters who have hard coded them. The best way to identify accesses by Googlebot is to use the user-agent (Googlebot).

Das ist doch im Prinzip meine Aussage...

Greetz

paddya
 
JavaScript ist und bliebt die sicherste Methode, da Bots wenn nur ganz spärlich JavaScript scannen
Von einem Ausführen von JS-Code und dem Injecten eines Image-Elementes im DOM was die Besucherzahl um 1 incremented sind Bots noch weit entfernt.
 
Zudem kommt noch die Tatsache, dass es weitaus mehr als nur google als Spider gibt. Habe momentan 390+ in meiner Datenbank eingetragen.

Also könntest du wie bereits vorgeschlagen, JavaScript benutzen oder halt eine Tabelle mit allen Spider anlegen und diese für das Increment des Counters sperren.
 
Möglicherweise nicht mehr, es gibt Vermutungen wonach der Googlebot nun fallweise/teilweise auch JS auswertet.
:arrow: https://www.seomoz.org/ugc/new-reality-google-follows-links-in-javascript-4930

Laut deiner URI werden aber wohl nur Teile verwendet.

It looks like Google's crawler executes only the parts of your JavaScript that have to do with links and skips the rest code.
...
So I assume Google's crawler is not equipped with a full-featured JavaScript interpreter. It just parses JavaScript, finds links, and maybe executes some reduced set of commands, for example, to concatenate strings.

Also wird JS schon die erste Wahl sein, wenn man Bots i.A. raus filtern möchte.

Perfekt ist keine Lösung. Natürlich kann man auch noch die IP checken, die Frage ist, ob sich der Aufwand lohnt.
Und so oft wird der Googlebot auch nicht als "Mozilla Firefox" aufkreuzen...

Greetz

paddya

Die Wahl der IP ist noch schlechter. Die getarnten Bots wirst du ohnehin weder an der IP noch an der Kennung erfassen. Google nutzt sie, um Webseiten aufzuspüren, die Cloaking betrieben. Und da können sie gar nicht als Google auftreten :p