SELFHTML/Quickbar  Internationalisierung


Das Unicode-System

Diese Seite ist ein Dokument mit Informationstext

 Allgemeines zu Unicode
 Die Unicode-Zeichen

 

Allgemeines zu Unicode

Unicode ist ein System, in dem die Zeichen oder Elemente aller bekannten Schriftkulturen und Zeichensysteme festgehalten werden. Durch dieses System wird es möglich, einem Computer zu sagen, welches Zeichen man dargestellt bekommen will. Voraussetzung ist natürlich, daß der Computer bzw. das ausgeführte Programm das Unicode-System kennt. Viele neuere Rechnertypen und Betriebssysteme basieren intern bereits auf dem Unicode-System. So werden beispielsweise bei Windows NT alle Zeichen, egal mit welcher Software Sie arbeiten, im Arbeitsspeicher intern als Unicodes gespeichert.

Jedes Zeichen oder Element in Unicode wird durch eine zwei Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis zu 65536 verschiedene Zeichen in dem System unterbringen. In Version 2.0 des Unicode-Standards sind 38885 Zeichen dokumentiert. Es ist also noch Platz genug. Damit es jedoch nicht irgendwann eng wird, gibt es mittlerweile ein erweitertes Schema, mit dem weit über eine Million verschiedene Zeichen in das System passen.

Unicode geht dadurch konsequent über das Prinzip der einzelnen  Zeichensätze hinaus. Mit Hilfe dieses Systems ist es beispielsweise möglich, mitten in einem deutschen Text mal eben ein paar arabische Wörter zu notieren. Auch für Steuerzeichen wie Silbentrennzeichen, erzwungene Leerzeichen oder Tabulatorzeichen gibt es Unicodes. Die Zeichen mathematischer Formeln fehlen ebensowenig wie die Silben- oder Wortzeichen fernöstlicher Schriftkulturen. Auch Einzelteile von Zeichen, wie etwa die Doppelpunkte über den deutschen Umlauten, haben einen eigenen Unicode. Zeichen lassen sich dynamisch kombinieren - so gibt es zwar natürlich auch ein deutsches "ä", aber der gleiche Buchstabe läßt sich auch aus "a" und dem Element für Doppelpunkt über dem Zeichen erzeugen.

Neben der bloßen Adressierung eines Zeichens oder Elements ist im Unicode-System für jedes Zeichen auch ein Set von Eigenschaften definiert. Zur Eigenschaft eines Zeichens gehört z.B. die Schreibrichtung (bei arabischen Zeichen etwa ist die Schreibrichtung von rechts nach links). Insgesamt stecken hinter dem Unicode-System unzählige Forschungsergebnisse der weltweiten Sprachwissenschaft. Die Version 2.0 des Unicode-Systems ist konform zur internationalen Norm ISO/IEC 10646. Erstellt wurde diese Version vom Unicode-Konsortium und einer ISO-Arbeitsgruppe. Informationen zum Unicode-Konsortium finden Sie im WWW auf der  Homepage des Unicode-Konsortiums

Das große Problem von Unicode ist eigentlich nur, wie all die vielen Zeichen an einem Computer dargestellt werden sollen. Denn Unicode definiert nur Codes und Eigenschaften von Zeichen, aber es enthält ebensowenig wie herkömmliche Zeichensätze Angaben darüber, wie genau das Zeichen darzustellen ist. Dazu sind am Computer Schnittstellen wie  Schriftarten erforderlich. Unsere heute verbreiteten Computerschriftarten sind dazu jedoch kaum geeignet, da sie sich weitgehend an bestimmten Zeichensätzen orientieren. Dazu kommen Probleme wie die Umsetzung einer anderen  Schreibrichtung. Zwar ist es ab HTML 4.0 möglich,  Unicodes in HTML zu kodieren. Doch die zur tatsächlichen Darstellung erforderliche Software-Intelligenz ist auf unseren heutigen Rechnern meist noch nicht gegeben.

Auch der international gültige Standard Universal Character Set (UCS) nach Standard ISO 10646 beruht auf den Zeichenwerten des Unicode-Systems.

 

Die Unicode-Zeichen

Das Unicode-System ist in Zahlenbereiche aufgeteilt. Die Zahlen selbst werden in der Form U+XXXX notiert. Das U steht für Unicode, und die vier X für je eine hexadezimale Ziffer. Je zwei hexadezimale Ziffern decken ein Byte ab (das Unicode-System ist ja ein Zwei-Byte-System). Für die korrekte Notation solcher Zeichen in HTML lesen Sie bitte auch den Abschnitt  Unicodes in HTML notieren.

Die einzelnen Zeichen im Unicode-System sind nicht wahllos angeordnet. Das gesamte System ist in Zeichenbereiche aufgeteilt. Die Zeichenbereiche spiegeln jeweils eine bestimmte Schriftkultur oder ein Set von Sonderzeichen wider.

Im folgenden werden die einzelnen Unicode-Zeichenbereiche aufgelistet. Bei jedem Zeichenbereich finden Sie einen Verweis ins WWW. Der Verweis führt jeweils zu einer Seite auf der Homepage des Unicode-Konsortiums. Darauf finden Sie zu dem betreffenden Zeichenbereich eine grafische Tabelle mit Abbildungen der einzelnen Zeichen des Bereichs und der zugehörigen Unicodes.

Steuerzeichen und Latin-Standardzeichen (ASCII-Zeichensatz)
Zeichenbereich (in hexadezimaler Angabe): U+0000 to U+007F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Latin-1 (siehe auch  Zeichensatz iso 8559-1)
Zeichenbereich (in hexadezimaler Angabe): U+0080 to U+00FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Latin Extended-A
Zeichenbereich (in hexadezimaler Angabe): U+0100 to U+017F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Latin Extended-B
Zeichenbereich (in hexadezimaler Angabe): U+0180 to U+024F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

IPA Extensions
Zeichenbereich (in hexadezimaler Angabe): U+0250 to U+02AF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Spacing Modifier Letters
Zeichenbereich (in hexadezimaler Angabe): U+02B0 to U+02FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Combining Diacritical Marks
Zeichenbereich (in hexadezimaler Angabe): U+0300 to U+036F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Greek
Zeichenbereich (in hexadezimaler Angabe): U+0370 to U+03FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Cyrillic
Zeichenbereich (in hexadezimaler Angabe): U+0400 to U+04FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Armenian
Zeichenbereich (in hexadezimaler Angabe): U+0530 to U+058F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Hebrew
Zeichenbereich (in hexadezimaler Angabe): U+0590 to U+05FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Arabic
Zeichenbereich (in hexadezimaler Angabe): U+0600 to U+06FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Devanagari
Zeichenbereich (in hexadezimaler Angabe): U+0900 to U+097F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Bengali
Zeichenbereich (in hexadezimaler Angabe): U+0980 to U+09FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Gurmukhi
Zeichenbereich (in hexadezimaler Angabe): U+0A00 to U+0A7F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Gujarati
Zeichenbereich (in hexadezimaler Angabe): U+0A80 to U+0AFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Oriya
Zeichenbereich (in hexadezimaler Angabe): U+0B00 to U+0B7F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Tamil
Zeichenbereich (in hexadezimaler Angabe): U+0B80 to U+0BFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Telugu
Zeichenbereich (in hexadezimaler Angabe): U+0C00 to U+0C7F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Kannada
Zeichenbereich (in hexadezimaler Angabe): U+0C80 to U+0CFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Malayalam
Zeichenbereich (in hexadezimaler Angabe): U+0D00 to U+0D7F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Thai
Zeichenbereich (in hexadezimaler Angabe): U+0E00 to U+0E7F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Lao
Zeichenbereich (in hexadezimaler Angabe): U+0E80 to U+0EFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Tibetan
Zeichenbereich (in hexadezimaler Angabe): U+0F00 to U+0FBF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Georgian
Zeichenbereich (in hexadezimaler Angabe): U+10A0 to U+10FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Hangul Jamo
Zeichenbereich (in hexadezimaler Angabe): U+1100 to U+11FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Latin Extended Additional
Zeichenbereich (in hexadezimaler Angabe): U+1E00 to U+1EFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Greek Extended
Zeichenbereich (in hexadezimaler Angabe): U+1F00 to U+1FFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

General Punctuation
Zeichenbereich (in hexadezimaler Angabe): U+2000 to U+206F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Superscripts and Subscripts
Zeichenbereich (in hexadezimaler Angabe): U+2070 to U+209F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Currency Symbols
Zeichenbereich (in hexadezimaler Angabe): U+20A0 to U+20CF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Combining Diacritical Marks for Symbols
Zeichenbereich (in hexadezimaler Angabe): U+20D0 to U+20FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Letterlike Symbols
Zeichenbereich (in hexadezimaler Angabe): U+2100 to U+214F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Number Forms
Zeichenbereich (in hexadezimaler Angabe): U+2150 to U+218F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Arrows
Zeichenbereich (in hexadezimaler Angabe): U+2190 to U+21FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Mathematical Operators
Zeichenbereich (in hexadezimaler Angabe): U+2200 to U+22FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Miscellaneous Technical
Zeichenbereich (in hexadezimaler Angabe): U+2300 to U+23FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Control Pictures
Zeichenbereich (in hexadezimaler Angabe): U+2400 to U+243F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Optical Character Recognition
Zeichenbereich (in hexadezimaler Angabe): U+2440 to U+245F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Enclosed Alphanumerics
Zeichenbereich (in hexadezimaler Angabe): U+2460 to U+24FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Box Drawing
Zeichenbereich (in hexadezimaler Angabe): U+2500 to U+257F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Block Elements
Zeichenbereich (in hexadezimaler Angabe): U+2580 to U+259F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Geometric Shapes
Zeichenbereich (in hexadezimaler Angabe): U+25A0 to U+25FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Miscellaneous Symbols
Zeichenbereich (in hexadezimaler Angabe): U+2600 to U+26FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Dingbats
Zeichenbereich (in hexadezimaler Angabe): U+2700 to U+27BF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

CJK Symbols and Punctuation
Zeichenbereich (in hexadezimaler Angabe): U+3000 to U+303F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Hiragana
Zeichenbereich (in hexadezimaler Angabe): U+3040 to U+309F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Katakana
Zeichenbereich (in hexadezimaler Angabe): U+30A0 to U+30FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Bopomofo
Zeichenbereich (in hexadezimaler Angabe): U+3100 to U+312F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Hangul Compatibility Jamo
Zeichenbereich (in hexadezimaler Angabe): U+3130 to U+318F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Kanbun
Zeichenbereich (in hexadezimaler Angabe): U+3190 to U+319F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Enclosed CJK Letters and Months
Zeichenbereich (in hexadezimaler Angabe): U+3200 to U+32FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

CJK Compatibility
Zeichenbereich (in hexadezimaler Angabe): U+3300 to U+33FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

CJK Unified Ideographs
Zeichenbereich (in hexadezimaler Angabe): U+4E00 to U+9FA5
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Hangul Syllables
Zeichenbereich (in hexadezimaler Angabe): U+AC00 to U+D7A3
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

High Surrogates
Zeichenbereich (in hexadezimaler Angabe): U+D800 to U+DB7F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Private Use High Surrogates
Zeichenbereich (in hexadezimaler Angabe): U+DB80 to U+DBFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Low Surrogates
Zeichenbereich (in hexadezimaler Angabe): U+DC00 to U+DFFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Private Use Area
Zeichenbereich (in hexadezimaler Angabe): U+E000 to U+F8FF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

CJK Compatibility Ideographs
Zeichenbereich (in hexadezimaler Angabe): U+F900 to U+FAFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Alphabetic Presentation Forms
Zeichenbereich (in hexadezimaler Angabe): U+FB00 to U+FB4F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Arabic Presentation Forms-A
Zeichenbereich (in hexadezimaler Angabe): U+FB50 to U+FDFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Combining Half Marks
Zeichenbereich (in hexadezimaler Angabe): U+FE20 to U+FE2F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

CJK Compatibility Forms
Zeichenbereich (in hexadezimaler Angabe): U+FE30 to U+FE4F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Small Form Variants
Zeichenbereich (in hexadezimaler Angabe): U+FE50 to U+FE6F
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Arabic Presentation Forms-B
Zeichenbereich (in hexadezimaler Angabe): U+FE70 to U+FEFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Halfwidth and Fullwidth Forms
Zeichenbereich (in hexadezimaler Angabe): U+FF00 to U+FFEF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Specials
Zeichenbereich (in hexadezimaler Angabe): U+FFF0 to U+FFFF
 Genaue Code-Tabelle mit grafischer Zeichendarstellung

Für fernöstliche Wort-/Silbenzeichen steht auf den WWW-Seiten des Unicode-Konsortiums eine grafische Datenbank zur Verfügung. In der  Unihan-Datenbank für fernöstliche Zeichen können Sie in verweis-sensitiven Grafiken auf Grundzeichen klicken und erhalten dann jeweils eine Liste der davon abgeleiteten Einzelzeichen. Die Darstellung ist durchweg grafisch.

Auf den WWW-Seiten des Unicode-Konsortiums gibt es ferner eine Tabelle mit Zeichen, die für die künftige Aufnahme in das Unicode-System vorgesehen sind. Mehr dazu im WWW unter der Überschrift  Proposed Unicode Characters.

weiter: Zeichensätze und Unicodes in HTML verwenden
zurück: Zeichensätze (iso-8559-Familie und andere)
 

SELFHTML/Quickbar  Internationalisierung

© 1998  Stefan Münz, muenz@csi.com