[(X)HTML] Erlaubte Zeichen in Hyperlinks

Ehm naja eigentlich kann ja jedes Zeicher drin sein wenn man danach geht, aber gibt es da nicht genaue RCF(hoffe die heisen so) Richtlinien. Auf w3c finde ich leider nix genaueres dazu. Es geht mir darum das ich gerade einen Suma Bot code und brauche das für den regex das ich das beschränken kann. Ich will ja keinen sinnlosen ink Crawlen. Zb habe ich link gesehen wo ?time=[timestamp] angehängt war, ist sowas erlaubt? Also spidert google auch sowas?
 
Ehm naja eigentlich kann ja jedes Zeicher drin sein wenn man danach geht, aber gibt es da nicht genaue RCF(hoffe die heisen so) Richtlinien.
In einem Link kann grundsätzlich jedes Zeichen drin sein (ASCII <32 würd ich nicht draufwetten, müsste aber codiert auch funktionieren :think: )
Wichtig ist nur, wie es codiert wird ;)

Überleg dir mal, wenn du in Google den String "$Ø4" suchen lässt.
https://www.google.de/search?hl=de&q=%24%C3%984
Dollarzeichen hexadezimal, Durchschnittszeichen Unicode, die Zahl als Plaintext

Genauso im Link. Bei XHTML musst du halt mehr aufpassen, als bei HTML, z.B. & => &amp; etc.
 
Zuletzt bearbeitet:
Es gibt Einschränkungen für die Domain unabhängig von der TLD.
Diese findet man z. B. hier.

...z.B. & => & etc.
ja & -> & ist sehr wichtig :biggrin:
gut, sollte sicherlich & -> & heißen, aber sieht lustig aus :biggrin: (mit Edit hinbekommen. GW :biggrin:)

Und es wäre sehr nett, wenn endlich mal dieses
aufhören würde. Es heißt weiß, wie die Farbe weiß. Nicht weis, weiss, oder was weiß ich, was es da noch alles gibt.