Unicode und HTML
Vor der Einführung von Unicode hatte man kaum eine Wahl, aber seit einigen Jahren macht die Verwendung von Unicode in HTML-Texten keine Probleme mehr. Damit sind frühere typografische Sünden nicht mehr länger entschuldbar, und man sollte sich mit den neuen Möglichkeiten vertraut machen.
Im Allgemeinen sollten Zeichen direkt als das Unicode-Zeichen selbst eingegeben werden,
und nur in Ausnahmefällen als HTML-Entity.
Das Euro-Zeichen zum Beispiel besser nicht als HTML-Entity €
oder gar als Zahlencode &8364;
codieren,
sondern stattdessen das Zeichen selbst angeben.
Das erleichtert die Weiterverarbeitung mittels XML,
und ebenso die Umwandlung in ein
PDF-Dokument.
Auch für den Leser des Quelltextes ist es so besser lesbar
– wer weiß schon, was „
bedeutet?
Nur in Sonderfällen, wie z.B. dem mathematischen Minuszeichen
oder anderen Fällen ist die HTML-Entity klarer,
weil sie den Zweck besser verdeutlicht.
Umlaute in der Entity-Notation wie Ä
anstelle Ä aber erschweren die Lesbarkeit der HTML-Quelltexte.
Bei Windows geschieht die Eingabe des Euro-Zeichens per Tastenkombination von [Alt Gr] und [E]. Für viele andere Unicode-Zeichen gibt es kein solch einfaches Tastenkürzel. Stattdessen muss man die Alt-Taste gedrückt halten, und einen vierstelligen Zahlencode eingeben. Alternativ kopiert man das Zeichen von einer bestehenden Textstelle per Copy & Paste.
Apropos:
Viele benutzen für das Copy & Paste immer noch die Maus und Menübefehle,
auch wenn es mit den Tastenkürzeln [Strg-C] für das Kopieren und [Strg-V] beim Einfügen
meist schneller geht.
Anführungszeichen
Im Web findet man oft nur das einfache Hochkommata ", wie es sich auf der Tastatur mittels [Hochstelltaste-2] erzeugen lässt. Im Schriftdeutsch aber nimmt man die unten öffnenden und oben schließenden Anführungszeichen „ und “.
Im vielen Sprachen benutzt man andere Anführungszeichen.
Im französischen sind es die Guillemots:
« ».
Diese werden zusätzlich per Leerzeichen vom innen stehenden Text abgetrennt,
während sich im deutschen die Anführungszeichen direkt an den inneren Text anschmiegen.
Ein Beispiel:
„So sei es“, sagte die Fee.Im französischen mit Leerzeichen:
Il dit : « Pourquoi parles-tu encore de ça ? »
Plenken
Es findet sich, vor allem in Chats oder E-Mails, dass Satzzeichen per Leerzeichen vom Wort abgetrennt werden. Das ist schlicht falsch im Deutschen, und erschwert die Lesbarkeit, von der Ästhetik ganz zu schweigen.
Besonders übel rächt sich das überflüssige Leerzeichen, wenn der Browser an genau dieser
Sollbruchstelle das einzeln stehende Satzzeichen in die nächste Zeile schiebt.
Wenn man dieser Unsitte also frönen will, sollte man wenigstens
das Zeichen
zwischen letztem Wort und geplenktem Satzzeichen einsetzen,
damit diese Trennung verhindert wird.
Oder sieht das gut und wie aus Zeitungen und Büchern gewohnt aus ?
Einfach leeren Raum am Ende des Satzes zu lassen , oder gar nach einem Komma ,
ist nicht sehr schön . Findest Du nicht auch ???
Multiple Satzzeichen
Mit den drei aufeinander folgenden Fragezeichen in obigem Satz sind
wir auch schon beim nächsten Thema.
Mehrere Satzzeichen hintereinander gibt es im Deutschen nicht, höchstens
als Auslassungspunkte …
Diese Auslassungspunkte aber haben ein eigenes typografisches Zeichen, die
HTML-Entity dazu nennt sich …
oder
Ellipse.
Die Intention der Autoren ist meist die besondere Betonung,
besonders beliebt scheint auch das Mischen von Frage- und Ausrufungszeichen ?!?
was den Leser aber eher verwirrt als beeindruckt.
Auch beim Apostroph bzw. Auslassungszeichen
wird oft das Zeichen oben rechts auf der Tastatur benutzt, korrekt wäre dagegen das Zeichen ’ anstelle des ´ oder gar `.
In der Tabelle unten findet man die Codes, oder man kopiert die Zeichen dort heraus.
Noch bequemer ist natürlich, wenn das CMS einem solche Feinarbeiten abnimmt.
Einige hierfür geeignete Regeln finden sich beim Textile-Projekt.
Tabelle wichtiger typografischer Zeichen
In der folgenden Tabelle finden sich häufiger zu verwendende typografische Zeichen. In manchen Zeichensätzen und Schriftgrößen fehlen diese, oder werden falsch oder unleserlich dargestellt. Daher kann man hier den Zeichensatz und die Schriftgröße einstellen, und sich das Ergebnis direkt ansehen.
Es werden vordefinierte Zeichensätze angeboten. Ob dieser auf Deinem System vorhanden ist, ist also nicht sicher. Meines Wissens gibt es keine sichere Möglichkeit, die auf dem Client-Browser installierten Zeichensätze zu ermitteln. Daher also nicht wundern, wenn manche Auswahlen keine sichtbare Änderung hervorrufen. Die auf dem Webserver installierten Zeichensätze sind mit dieser C#-Funktion auflistbar:
foreach (FontFamily font in FontFamily.Families)
{
fontList.Items.Add(new ListItem(font.Name, font.Name));
}
abc def ghijklmnopqrstuvwxyz
abc def ghijklmnopqrstuvwxyz
Bedeutung | Entity | Darstellung | Unicode | Alt-Code | Uni-Code |
---|---|---|---|---|---|
Ellipsis / Auslassungspunkte | … | … | … | 0133 | 22EF |
Anführungszeichen unten | „ | „ | „ | 0132 | 201E |
Anführungszeichen oben | “ | “ | “ | 0147 | 201C |
Beide Anführungszeichen | (für Copy & Paste) | „“ | |||
Apostroph / Auslassungszeichen | ’ | ’ | ’ | 0146 | 2019 |
Sekunden / Zoll | ″ | ″ | ″ | 2033 | |
Gedankenstrich / Halbgeviert-Strich | – | – | – | 0150 | 2013 |
engl. Gedankenstrich / Geviert-Strich | — | — | — | ||
Mathematisches Minus | − | − | − | 2212 | |
Multiplikation | × | × | × | ||
Division | ÷ | ÷ | ÷ | ||
Promille | ‰ | ‰ | ‰ | ||
Unendlich | ∞ | ∞ | ∞ | ||
Grad | ° | ° | ° | ||
Grad Celsius | ℃ | ||||
Kelvin | K | ||||
Grad Fahrenheit | ℉ | ||||
Euro | € | € | € | ||
Copyright | © | © | © |
Referenzen und weiterführende Informationen:
- On the use of some MS Windows characters in HTML
- HTML-Zeichenreferenz
- Webtypographie
- Automatische Ersetzungen in Texten für das Web
- Typographie für Webautoren
- Typographie für HTML
- Alan Wood’s Unicode Resources
- Unicode characters displayed by the major Web browsers
- Die 10 häufigsten Publishing-Satzfehler
- Ein (Sonder-)Zeichen setzen
- HTML 4.0 Entities und References