URL-Escapezeichen in UTF-8 wandeln

Ich stand gerade vor dem Problem, Daten aus URLs zu extrahieren. Nun kann man in eine URL nicht unmittelbar bestimmte Zeichen (Umlaute, Leerzeichen etc.) eingeben. Diese werden durch so genannte Escapezeichen markiert. Aus einem Leerzeichen wird dann %20 oder ein " wird ein %22 usw. Mein Problem bestand darin, diese Zeichen wieder zurück zu transformieren. Mit sed würde das gehen, aber einen recht hohen Aufwand darstellen. Auch weitere Programme schienen ungeeignet. Aber Maddi brachte mich auf die richtige Spur: uni2ascci. Der Aufruf ascii2uni -aJ < datei löste mein Problem. ;-)


LeSpocky on :

Dabei muss man aber drauf achten, dass die Zeichen in der URL im Prinzip hinter der URL-Kodierung noch unterschiedlich kodiert sein können, also dort eben in UTF-8, ISO-8859-? usw. – bin ich letztens drüber gestolpert, als ich bisschen mit libwww-perl gespielt hab. ;-)

