|
|
#1 (permalink) | |||||||||
|
Chancentod²
|
Begrüße!
Für eine Untersuchung möchte ich aus Webseiten zusammenhängende, im Browser sichtbare Texte extrahieren. Die Ergebnisse müssen dabei nicht 100% korrekt sein. Eine oberflächliche Analyse des Quelltextes reicht also völlig. Ob der Text tatsächlich angezeigt wird, oder ob er über ein "display:none;" an irgendeiner Stelle versteckt wird, oder ob er die gleiche Farbe hat wie der Hintergrund soll also vernachlässigt werden. Mein erster Gedanke war es, das Ganze über reguläre Ausdrücke zu lösen. Das Problem dabei ist die Verschachtelung der HTML Elemente und dass nicht in jedem HTML Element im innerHTML Teil sichtbarer Text enthalten ist, der tatsächlich als Text im Browser ausgegeben wird. Ein einfaches Beispiel: PHP-Code:
Code:
PHP-Code:
Oder denkt ihr, dass man über klassisches Parsen des DOM Baumes zu besseren Ergebnissen kommt? Auch hier wären wohl wieder bestimmte Regeln für gewisse, noch zu definierende Elemente, nötig. Hat vielleicht jemand weitere Ideen, wie man sowas umsetzen könnte? Ich weiß, dass meine Fragestellung recht vage ist. Ich konnte für mich selbst auch noch nicht 100% definieren, was denn zusammenhängender Text auf einer Webseite eigentlich ist. Ich erhoffe mir mit diesem Thread also Ideen und/oder einen Schubs in die richtige Richtung. Falls jemand was zu Arbeiten zu diesem Thema kennt, dann wäre ich über Links oder Namen äußerst dankbar. Mangels passender Suchbegriffe war eine Suche bis jetzt erfolglos. Danke im Vorraus, MfG, WhiZZler ..and you could have it all, my empire of dirt.. ![]() |
|||||||||
|
|
|
| Gesponsorte Links |
|
|
#3 (permalink) |
|
return void
|
Readability ist ein sehr bekanntes Projekt, da könntest du Glück haben einen mehr oder weniger aktuellen Port auf jede Programmiersprache zu finden. Selbst schreiben würde ich ganz lassen, das wird vorne und hinten schief gehen. |
|
|
|
|
|
#4 (permalink) | ||
|
Chancentod²
|
Zitat:
Zitat:
..and you could have it all, my empire of dirt.. ![]() |
||
|
|
![]() |
| Gesponsorte Links |
| Anzeige |
| Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1) | |
| Themen-Optionen | |
| Ansicht | |
|
|
Ähnliche Themen
|
||||
| Thema | Autor | Forum | Antworten | Letzter Beitrag |
| Sound Extrahieren | kryb | Lose4Action | 2 | 14.12.2008 21:44:56 |
| Kann keine ZIP Ordner mehr öffnen bzw. extrahieren...? | Saralx | Software/Windows | 2 | 25.08.2007 18:59:18 |
| [B] Texte | flaschenkind | Lose4Misc | 17 | 15.04.2007 14:27:39 |
| [S]uche kleine Webseiten oder Texte zum Kauf | Skhoney | Lose4Scripts (erledigt) | 1 | 27.06.2006 10:46:27 |