[S] Programm zum auslesen und speichern von Internetseite

janus · 25 April 2009

Hallo zusammen,

für eine Statistik über Suchbegriffe im Internet würde mir ein Programm oder auch Script zum auslesen von "Livesuche" Ergebnissen sehr weiterhelfen. Auf Fireball.de wird so eine Live Suche zum Beispiel angeboten. (https://fireball.de/Live.asp)

Nun würde ich gerne automatisch alle Suchbegriffe die dort erscheinen auslesen lassen und in ein Textfile, ne Tabelle oder Datenbank schreiben um sie später statistisch auszuwerten.

Am liebsten wäre mir hierfür ein Windows Programm. Falls das aber nur mit einem Script auf einem Webserver möglich ist, wäre auch das klein Problem.

Vielen Dank und Gruß aus Irland...

PS: Ja, es regnet :-?

Salkin · 25 April 2009

ich bin mir ziemlich sicher dass sowas nicht realistisch funktionieren könnte. Erstens bräuchstest du professionelle Software um eine solche Datenmasse bewältigen zu können, zweitens könntest du über diese 10 momentanen suchbegriffen keinesfalls eine größere Statistik erstellen.

Du kannst nur versuchen direkt solche Statistiken zu bekommen, viele Suchmaschienen bieten sowas an, Google zb.

janus · 25 April 2009

Professionelle Software ? Soweit sollte es ja nicht gerade gehen. Die Auswertung selbst mache ich großteils in einer Tabellenkalkulation. Es geht mir rein um das auslesen.

Momentan mache ich das ganze etwas behelfsmäßig mit dem Programm GhostMouse. Damit habe ich die Mauszeiger Bewegungen aufgezeichnet und kann diese in einer Schleife laufen lassen. Beispiel: Maus markiert Text -> Text wird kopiert -> Text in Textdatei einfügen -> Vorgang wiederholen.

Das funktioniert gar nicht mal so schlecht. Allerdings klappt es nicht mehr wenn sich am Timing (Ladezeit der Seite etc) was ändert. Dann klickt man schon mal ins Leere. Aber vielleicht lässt sich das ganze etwas komplexer aufbauen mit AutoIT....

Was machen denn die sogenannten Content Grabber eigentlich? Ist das nicht ähnlich ?

croubie · 25 April 2009

WebSpider?

Damit kannst du z. B. die Startseite von klamm.de komplett mit style.css, Grafiken und Unterseiten speichern.

Ich hoffe, ich meine das richtige.

janus · 25 April 2009

Das werde ich doch gleich mal versuchen. Danke !!!

Habe mich nochmals genau umgesehen und bin auf den Begriff "Web Extractor" gestoßen. Mit diesen Programmen lässt sich ein Seitenformat analysieren und dann ausgewählte DIV und Tabellenbereiche in z.b. CSV oder TXT Dateien extrahieren.

Leider kostet solch eine Software etwa € 250 und dann arbeitet sie auch nicht vollautomatisch sondern nur wieder auf Knopfdruck einmalig...

Die Suche geht weiter !

Salkin · 25 April 2009

wenn du nicht übermäßig anspruchsvoll bist kannst du dir eine solche software auch durchaus gegen Lose Programmieren lassen(was wahrscheinlich besser Resultate liefert als kommerzielle Software). Es ist nicht übermäßig aufwendig, wenn du willst kannst du in meinen Thread diesbezüglich schauen. ----->

K345601 · 25 April 2009

In welchem Umfang soll das Ganze denn sein?

Geht es direkt um die von Dir erwähnte Seite?

Muss es genau alle 10 Sekunden mit tracken, oder kann aufgrund von Ladezeit auch mal eine Suche übersprungen werden?

Was wäre Dir denn so etwas wert?

janus · 25 April 2009

Um 100% Vollständigkeit geht es mir bei der Suche/Sammlung nicht. Die Daten würden mir von Fireball.de auch schon ausreichen.

Was mir das wert wäre ? Na, in Zeiten von Rezession und Gehaltskürzungen am liebsten Gratis

Werde mich jetzt noch dran machen und ein nach Ereignissen ablaufendes Script für AutoIt schreiben. Falls das nicht klappt werde ich mich gerne nochmals mit einem Euro Betrag in der Tasche bei dir melden.

Wen es interessiert. Habe zuletzt den WebSpider 2 getestet. Damit lassen sich komplette Webseiten auf die heimische Festplatte laden. Sogar die Links werden entsprechend umgewandelt, dass ein lokales Surfen ohne weiteres möglich ist. Schade nur, dass es mir bei meiner Suche nicht ganz so hilfreich ist.

Schönes Wochenende noch!

K345601 · 25 April 2009

Hmm ...

... also ich würd mich daran versuchen gegen gute Backlinks zu einer zukünftigen Seite von mir, sofern es sich erstmal nur um die von Dir gepostete Beispielseite handelt, die ist nämlich in der Tat wirklich einfach zu händeln.
Muss mir nur Gedanken machen, wie ich Doppler aussortiere.

Lösungsansatz wäre ein kleines Windows-Programm, dass die Ergebnisse z.B. alle 500 oder 1000 Ergebnisse (frei einstellbar) in eine .txt Datei schreibt, diese getrennt durch einen Zeilenumbruch, so dass Du diese später problemlos per Copy + Paste in z.B. Excel reinkopieren kannst.

Referenz schicke ich Dir per PN.

janus · 25 April 2009

Danke für eure Hilfe und die vielen Anregungen die es mir letztendlich ermöglicht haben das ganze doch noch mit dem guten alten GhostMouse umzusetzen.

Schaffe zwar nur 2 Abfragen pro Minuten, was insgesamt stündlich 1200 Suchbegriffe sind, sie dann sauber in einer OO Calc Tabelle landen. Nach einigen Tagen sollten es aber ausreichend Daten zur Auswertung sein.

Darf ich diese Daten eigentlich im Internet veröffentlichen ??? Oder schlägt da das Copyright zu ?

Salkin · 25 April 2009

janus schrieb:
Schaffe zwar nur 2 Abfragen pro Minuten, was insgesamt stündlich 1200 Suchbegriffe sind, sie dann sauber in einer OO Calc Tabelle landen. Nach einigen Tagen sollten es aber ausreichend Daten zur Auswertung sein.

jo, das ist keine schnelle Version. Die direkte(siehe PN) schafft bis zu 30/Min

janus schrieb:
Darf ich diese Daten eigentlich im Internet veröffentlichen ??? Oder schlägt da das Copyright zu ?

könnte sein, aber schau einfach mal ob du irendwelche "Nutzungsbedingungen" oder so findest. Wenn nicht wüsste ich nicht was dagegen spricht.

Banane · 25 April 2009

janus schrieb:
Darf ich diese Daten eigentlich im Internet veröffentlichen ???

Wenn du die Daten kommerziell verwendest, z.B. indem du sie auf einer Webseite mit Werbebannern veröffentlichst, dann kann das problematisch sein. (Ich gehe davon aus, dass du keine explizite Erlaubnis von Fireball hast, dort Daten auf diese Art und zu diesem Zweck zu sammeln)

K345601 · 25 April 2009

Hmm ...

.... Banane,

wer hat denn das Urheberrecht an den Suchbegriffen?

Ich würde sagen, nicht Lycos - sondern die Suchenden.

Da das System selbständig alle 10 Sek. sich aktualisiert, ist auch nicht davon auszugehen, dass Janus das System überfordert, wenn er alle 30 Sek. ein Screening macht.

Ich würde sagen, Janus schafft mit dem Sammeln ein eigenes Urheberrecht, weil es seine Leistung ist, aus den gesammelten Daten neue zu generieren.
Allerdings wird er sich nicht auf Exklusivität berufen können, da jeder andere ebenso die Daten auslesen kann. Aber das hat Janus vermutlich auch nicht vor ...

Banane · 26 April 2009

Hiltwin schrieb:
Da das System selbständig alle 10 Sek. sich aktualisiert, ist auch nicht davon auszugehen, dass Janus das System überfordert, wenn er alle 30 Sek. ein Screening macht.

Da er das System auf eine andere Art als vorgesehen verwendet könnte man ihm möglicherweise einen Strick daraus drehen, sehr wahrscheinlich sogar, wenn es als eine "Datenbank" angesehen wird oder von ihm wie eine solche verwendet wird:
:arrow:

https://www.google.com/search?q=urheberrecht+datenbank

Saba2k6 · 27 April 2009

janus schrieb:
...

Hast ne PM.

K345601 · 27 April 2009

Banane schrieb:
Da er das System auf eine andere Art als vorgesehen verwendet könnte man ihm möglicherweise einen Strick daraus drehen, sehr wahrscheinlich sogar, wenn es als eine "Datenbank" angesehen wird oder von ihm wie eine solche verwendet wird:

Vielen Dank für den Link, der eigentlich genau das GEGENTEIL beweist!

(1.) Das Urheberrecht an der Datenbank besteht lediglich an der Datenbank als solcher, nicht an den darin enthaltenen Werken

Welch geistiges Schöpfungsniveau beim Beispiel - die "Datenbank" besteht aus 10 Elementen, getrennt durch <br> :ugly:

Da das Beispiel nicht als Datenbank angeboten wird, sondern als Live-Ausgabe der letzten 10 Abfragen dürfte es von Lycos nicht möglich sein, da mit "Datenbank" zu argumentieren.

Mach dem Jungen mal nicht bange :mrgreen:

[S] Programm zum auslesen und speichern von Internetseite

janus

Well-known member

Salkin

Programmierer

janus

Well-known member

croubie

MoneyMaker

janus

Well-known member

Salkin

Programmierer

K345601

Forenneuling

janus

Well-known member

K345601

Forenneuling

janus

Well-known member

Salkin

Programmierer

Banane

…?

K345601

Forenneuling

Banane

…?

Saba2k6

blub Oo

K345601

Forenneuling