Spickzettel: iconv illegal input sequence

Bei der Umwandlung von Zeichensätzen per iconv stößt man immer mal wieder nicht umwandelbare Zeichen. Die Fehlermeldung:

$ iconv -f UTF-8 -t ISO-8859-1 INPUT.txt > OUT.txt
iconv: illegal input sequence at position 80379

Dabei befindet sich das illegale Zeichen in dem Beispiel an Byte-Position 80379 (in der Folge als "x" bzeichnet).

Wenn ich jetzt 5 Bytes davon und 10 Bytes hinter dem Zeichen haben will, kann man das per dd extrahieren:

$ dd if=INPUT.txt of=ERROR_ZEICHEN.txt bs=1 count=15 skip=80374

Dabei steht bei count die Anzahl der Zeichen (5 vorher + 10 hinterher) und bei skip die Anzahl der Bytes, die übersprungen werden sollen ( x - 5 = 80379 - 5 = 80374).

Die Datei ERROR_ZEICHEN.txt lässt sich nachfolgend hinsichtlich des problematischen Zeichens untersuchen.

Tags: 

Neuen Kommentar schreiben