Schon seit Jahren hat die ganze IT-Welt ein Problem. Die ganze? Nein, nur der Teil, der ausserhalb der angelsächsischen Länder liegt.

Mit Unicode steht schon langem ein Codierungs-Standard zur Verfügung, mit dem sich so ziemlich alle Sonderzeichen sämtlicher lebendiger Sprachen abbilden lässt. Nur leider wird dieser Standard sehr oft nicht implementiert: Als Computerlinguist hat man täglich mit dämlichen Codierungen in Textdaten zu kämpfen.


24.10.08: Wenn den Dump einer MySQL-Datenbank Version 3.x in die neue Version 5.x einspielt, sind mit den Standrad-Einstellungen alle deutschen Umlaute weg.

4.8.2008: Seit heute Abend weiss ich, dass eine Datei mit deutschem "ä" im Dateinamen meinen MP3-Player der Marke S***a lahmlegt ;-(