Hallo,
ich habe einen Regex, der alle Links einer Website analysieren soll. Es sind natürlich auch subdomains (bla.bild.de) erlaubt.
Was nicht erlaubt ist, ist logischerweise sportbild.de & alle anderen Seiten. Ansonsten muss er natürlich auch Links aufdecken, die beispielsweise so verlinkt sind => <a href="/imprint">..</a>
Was nicht geht, sind Links wie diese hier: <a href="javascript(doAnything);"> . Mein Ausdruck matcht zwar schon einige allerdings kriege ich eben diese JS-Links zurück und auch Links zu sportbild.de & Co.
Könnt ihr mir helfen? Wäre super wichtig =)
Danke.
ich habe einen Regex, der alle Links einer Website analysieren soll. Es sind natürlich auch subdomains (bla.bild.de) erlaubt.
Was nicht erlaubt ist, ist logischerweise sportbild.de & alle anderen Seiten. Ansonsten muss er natürlich auch Links aufdecken, die beispielsweise so verlinkt sind => <a href="/imprint">..</a>
Was nicht geht, sind Links wie diese hier: <a href="javascript(doAnything);"> . Mein Ausdruck matcht zwar schon einige allerdings kriege ich eben diese JS-Links zurück und auch Links zu sportbild.de & Co.
Könnt ihr mir helfen? Wäre super wichtig =)
Code:
<a[^>]+?href=["\']((?:(?!https?://)|(?=https?://(?:www\.)?[^"\']+?bild\.de))[^"\']+)
Danke.