Unicode und HTML

© Christoph Wissing –

Vor der Einführung von Unicode hatte man kaum eine Wahl, aber seit einigen Jahren macht die Verwendung von Unicode in HTML-Texten keine Probleme mehr. Damit sind frühere typografische Sünden nicht mehr länger entschuldbar, und man sollte sich mit den neuen Möglichkeiten vertraut machen.

Im Allgemeinen sollten Zeichen direkt als das Unicode-Zeichen selbst eingegeben werden, und nur in Ausnahmefällen als HTML-Entity. Das Euro-Zeichen zum Beispiel besser nicht als HTML-Entity € oder gar als Zahlencode &8364; codieren, sondern stattdessen das Zeichen selbst angeben. Das erleichtert die Weiterverarbeitung mittels XML, und ebenso die Umwandlung in ein PDF-Dokument. Auch für den Leser des Quelltextes ist es so besser lesbar – wer weiß schon, was „ bedeutet?
Nur in Sonderfällen, wie z.B. dem mathematischen Minuszeichen oder anderen Fällen ist die HTML-Entity klarer, weil sie den Zweck besser verdeutlicht. Umlaute in der Entity-Notation wie Ä anstelle Ä aber erschweren die Lesbarkeit der HTML-Quelltexte.

Bei Windows geschieht die Eingabe des Euro-Zeichens per Tastenkombination von [Alt Gr] und [E]. Für viele andere Unicode-Zeichen gibt es kein solch einfaches Tastenkürzel. Stattdessen muss man die Alt-Taste gedrückt halten, und einen vierstelligen Zahlencode eingeben. Alternativ kopiert man das Zeichen von einer bestehenden Textstelle per Copy & Paste.

Apropos:
Viele benutzen für das Copy & Paste immer noch die Maus und Menübefehle, auch wenn es mit den Tastenkürzeln [Strg-C] für das Kopieren und [Strg-V] beim Einfügen meist schneller geht.

Anführungszeichen

Im Web findet man oft nur das einfache Hochkommata ", wie es sich auf der Tastatur mittels [Hochstelltaste-2] erzeugen lässt. Im Schriftdeutsch aber nimmt man die unten öffnenden und oben schließenden Anführungszeichen  und .

Im vielen Sprachen benutzt man andere Anführungszeichen. Im französischen sind es die Guillemots: « ». Diese werden zusätzlich per Leerzeichen vom innen stehenden Text abgetrennt, während sich im deutschen die Anführungszeichen direkt an den inneren Text anschmiegen.
Ein Beispiel:

„So sei es“, sagte die Fee.
Im französischen mit Leerzeichen:
Il dit : « Pourquoi parles-tu encore de ça ? »

Plenken

Es findet sich, vor allem in Chats oder E-Mails, dass Satzzeichen per Leerzeichen vom Wort abgetrennt werden. Das ist schlicht falsch im Deutschen, und erschwert die Lesbarkeit, von der Ästhetik ganz zu schweigen.

Besonders übel rächt sich das überflüssige Leerzeichen, wenn der Browser an genau dieser Sollbruchstelle das einzeln stehende Satzzeichen in die nächste Zeile schiebt. Wenn man dieser Unsitte also frönen will, sollte man wenigstens das Zeichen   zwischen letztem Wort und geplenktem Satzzeichen einsetzen, damit diese Trennung verhindert wird.

Oder sieht das gut und wie aus Zeitungen und Büchern gewohnt aus ?
Einfach leeren Raum am Ende des Satzes zu lassen , oder gar nach einem Komma , ist nicht sehr schön . Findest Du nicht auch ???

Multiple Satzzeichen

Mit den drei aufeinander folgenden Fragezeichen in obigem Satz sind wir auch schon beim nächsten Thema. Mehrere Satzzeichen hintereinander gibt es im Deutschen nicht, höchstens als Auslassungspunkte …
Diese Auslassungspunkte aber haben ein eigenes typografisches Zeichen, die HTML-Entity dazu nennt sich … oder Ellipse.
Die Intention der Autoren ist meist die besondere Betonung, besonders beliebt scheint auch das Mischen von Frage- und Ausrufungszeichen ?!? was den Leser aber eher verwirrt als beeindruckt. Auch beim Apostroph bzw. Auslassungszeichen wird oft das Zeichen oben rechts auf der Tastatur benutzt, korrekt wäre dagegen das Zeichen ’ anstelle des ´ oder gar `. In der Tabelle unten findet man die Codes, oder man kopiert die Zeichen dort heraus. Noch bequemer ist natürlich, wenn das CMS einem solche Feinarbeiten abnimmt. Einige hierfür geeignete Regeln finden sich beim Textile-Projekt.

Tabelle wichtiger typografischer Zeichen

In der folgenden Tabelle finden sich häufiger zu verwendende typografische Zeichen. In manchen Zeichensätzen und Schriftgrößen fehlen diese, oder werden falsch oder unleserlich dargestellt. Daher kann man hier den Zeichensatz und die Schriftgröße einstellen, und sich das Ergebnis direkt ansehen.

Es werden vordefinierte Zeichensätze angeboten. Ob dieser auf Deinem System vorhanden ist, ist also nicht sicher. Meines Wissens gibt es keine sichere Möglichkeit, die auf dem Client-Browser installierten Zeichensätze zu ermitteln. Daher also nicht wundern, wenn manche Auswahlen keine sichtbare Änderung hervorrufen. Die auf dem Webserver installierten Zeichensätze sind mit dieser C#-Funktion auflistbar:

foreach (FontFamily font in FontFamily.Families)
{
    fontList.Items.Add(new ListItem(font.Name, font.Name));
}
Bedeutung Entity Darstellung Unicode Alt-Code Uni-Code
Ellipsis / Auslassungspunkte … 0133 22EF
Anführungszeichen unten „ 0132 201E
Anführungszeichen oben “ 0147 201C
Beide Anführungszeichen (für Copy & Paste) „“
Apostroph / Auslassungszeichen ’ 0146 2019
Sekunden / Zoll ″ 2033
Gedankenstrich / Halbgeviert-Strich – 0150 2013
engl. Gedankenstrich / Geviert-Strich —
Mathematisches Minus − 2212
Multiplikation × × ×
Division ÷ ÷ ÷
Promille ‰
Unendlich ∞
Grad ° ° °
Grad Celsius
Kelvin
Grad Fahrenheit
Euro €
Copyright © © ©

Referenzen und weiterführende Informationen: