Das Unicode-System |
|
Unicode ist ein System, in dem die Zeichen oder Elemente aller bekannten Schriftkulturen und Zeichensysteme festgehalten werden. Durch dieses System wird es möglich, einem Computer zu sagen, welches Zeichen man dargestellt bekommen will. Voraussetzung ist natürlich, daß der Computer bzw. das ausgeführte Programm das Unicode-System kennt. Viele neuere Rechnertypen und Betriebssysteme basieren intern bereits auf dem Unicode-System. So werden beispielsweise bei Windows NT alle Zeichen, egal mit welcher Software Sie arbeiten, im Arbeitsspeicher intern als Unicodes gespeichert.
Jedes Zeichen oder Element in Unicode wird durch eine zwei Byte lange Zahl ausgedrückt. Auf diese Weise lassen sich bis zu 65536 verschiedene Zeichen in dem System unterbringen. In Version 2.0 des Unicode-Standards sind 38885 Zeichen dokumentiert. Es ist also noch Platz genug. Damit es jedoch nicht irgendwann eng wird, gibt es mittlerweile ein erweitertes Schema, mit dem weit über eine Million verschiedene Zeichen in das System passen.
Unicode geht dadurch konsequent über das Prinzip der einzelnen Zeichensätze hinaus. Mit Hilfe dieses Systems ist es beispielsweise möglich, mitten in einem deutschen Text mal eben ein paar arabische Wörter zu notieren. Auch für Steuerzeichen wie Silbentrennzeichen, erzwungene Leerzeichen oder Tabulatorzeichen gibt es Unicodes. Die Zeichen mathematischer Formeln fehlen ebensowenig wie die Silben- oder Wortzeichen fernöstlicher Schriftkulturen. Auch Einzelteile von Zeichen, wie etwa die Doppelpunkte über den deutschen Umlauten, haben einen eigenen Unicode. Zeichen lassen sich dynamisch kombinieren - so gibt es zwar natürlich auch ein deutsches "ä", aber der gleiche Buchstabe läßt sich auch aus "a" und dem Element für Doppelpunkt über dem Zeichen erzeugen.
Neben der bloßen Adressierung eines Zeichens oder Elements ist im Unicode-System für jedes Zeichen auch ein Set von Eigenschaften definiert. Zur Eigenschaft eines Zeichens gehört z.B. die Schreibrichtung (bei arabischen Zeichen etwa ist die Schreibrichtung von rechts nach links). Insgesamt stecken hinter dem Unicode-System unzählige Forschungsergebnisse der weltweiten Sprachwissenschaft. Die Version 2.0 des Unicode-Systems ist konform zur internationalen Norm ISO/IEC 10646. Erstellt wurde diese Version vom Unicode-Konsortium und einer ISO-Arbeitsgruppe. Informationen zum Unicode-Konsortium finden Sie im WWW auf der Homepage des Unicode-Konsortiums
Das große Problem von Unicode ist eigentlich nur, wie all die vielen Zeichen an einem Computer dargestellt werden sollen. Denn Unicode definiert nur Codes und Eigenschaften von Zeichen, aber es enthält ebensowenig wie herkömmliche Zeichensätze Angaben darüber, wie genau das Zeichen darzustellen ist. Dazu sind am Computer Schnittstellen wie Schriftarten erforderlich. Unsere heute verbreiteten Computerschriftarten sind dazu jedoch kaum geeignet, da sie sich weitgehend an bestimmten Zeichensätzen orientieren. Dazu kommen Probleme wie die Umsetzung einer anderen Schreibrichtung. Zwar ist es ab HTML 4.0 möglich, Unicodes in HTML zu kodieren. Doch die zur tatsächlichen Darstellung erforderliche Software-Intelligenz ist auf unseren heutigen Rechnern meist noch nicht gegeben.
Auch der international gültige Standard Universal Character Set (UCS) nach Standard ISO 10646 beruht auf den Zeichenwerten des Unicode-Systems.
Das Unicode-System ist in Zahlenbereiche aufgeteilt. Die Zahlen selbst werden in der Form U+XXXX notiert. Das U steht für Unicode, und die vier X für je eine hexadezimale Ziffer. Je zwei hexadezimale Ziffern decken ein Byte ab (das Unicode-System ist ja ein Zwei-Byte-System). Für die korrekte Notation solcher Zeichen in HTML lesen Sie bitte auch den Abschnitt Unicodes in HTML notieren.
Die einzelnen Zeichen im Unicode-System sind nicht wahllos angeordnet. Das gesamte System ist in Zeichenbereiche aufgeteilt. Die Zeichenbereiche spiegeln jeweils eine bestimmte Schriftkultur oder ein Set von Sonderzeichen wider.
Im folgenden werden die einzelnen Unicode-Zeichenbereiche aufgelistet. Bei jedem Zeichenbereich finden Sie einen Verweis ins WWW. Der Verweis führt jeweils zu einer Seite auf der Homepage des Unicode-Konsortiums. Darauf finden Sie zu dem betreffenden Zeichenbereich eine grafische Tabelle mit Abbildungen der einzelnen Zeichen des Bereichs und der zugehörigen Unicodes.
Steuerzeichen und Latin-Standardzeichen (ASCII-Zeichensatz)
Zeichenbereich (in hexadezimaler Angabe): U+0000 to U+007F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Latin-1 (siehe auch Zeichensatz iso 8559-1)
Zeichenbereich (in hexadezimaler Angabe): U+0080 to U+00FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Latin Extended-A
Zeichenbereich (in hexadezimaler Angabe): U+0100 to U+017F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Latin Extended-B
Zeichenbereich (in hexadezimaler Angabe): U+0180 to U+024F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
IPA Extensions
Zeichenbereich (in hexadezimaler Angabe): U+0250 to U+02AF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Spacing Modifier Letters
Zeichenbereich (in hexadezimaler Angabe): U+02B0 to U+02FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Combining Diacritical Marks
Zeichenbereich (in hexadezimaler Angabe): U+0300 to U+036F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Greek
Zeichenbereich (in hexadezimaler Angabe): U+0370 to U+03FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Cyrillic
Zeichenbereich (in hexadezimaler Angabe): U+0400 to U+04FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Armenian
Zeichenbereich (in hexadezimaler Angabe): U+0530 to U+058F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Hebrew
Zeichenbereich (in hexadezimaler Angabe): U+0590 to U+05FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Arabic
Zeichenbereich (in hexadezimaler Angabe): U+0600 to U+06FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Devanagari
Zeichenbereich (in hexadezimaler Angabe): U+0900 to U+097F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Bengali
Zeichenbereich (in hexadezimaler Angabe): U+0980 to U+09FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Gurmukhi
Zeichenbereich (in hexadezimaler Angabe): U+0A00 to U+0A7F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Gujarati
Zeichenbereich (in hexadezimaler Angabe): U+0A80 to U+0AFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Oriya
Zeichenbereich (in hexadezimaler Angabe): U+0B00 to U+0B7F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Tamil
Zeichenbereich (in hexadezimaler Angabe): U+0B80 to U+0BFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Telugu
Zeichenbereich (in hexadezimaler Angabe): U+0C00 to U+0C7F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Kannada
Zeichenbereich (in hexadezimaler Angabe): U+0C80 to U+0CFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Malayalam
Zeichenbereich (in hexadezimaler Angabe): U+0D00 to U+0D7F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Thai
Zeichenbereich (in hexadezimaler Angabe): U+0E00 to U+0E7F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Lao
Zeichenbereich (in hexadezimaler Angabe): U+0E80 to U+0EFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Tibetan
Zeichenbereich (in hexadezimaler Angabe): U+0F00 to U+0FBF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Georgian
Zeichenbereich (in hexadezimaler Angabe): U+10A0 to U+10FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Hangul Jamo
Zeichenbereich (in hexadezimaler Angabe): U+1100 to U+11FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Latin Extended Additional
Zeichenbereich (in hexadezimaler Angabe): U+1E00 to U+1EFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Greek Extended
Zeichenbereich (in hexadezimaler Angabe): U+1F00 to U+1FFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
General Punctuation
Zeichenbereich (in hexadezimaler Angabe): U+2000 to U+206F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Superscripts and Subscripts
Zeichenbereich (in hexadezimaler Angabe): U+2070 to U+209F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Currency Symbols
Zeichenbereich (in hexadezimaler Angabe): U+20A0 to U+20CF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Combining Diacritical Marks for Symbols
Zeichenbereich (in hexadezimaler Angabe): U+20D0 to U+20FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Letterlike Symbols
Zeichenbereich (in hexadezimaler Angabe): U+2100 to U+214F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Number Forms
Zeichenbereich (in hexadezimaler Angabe): U+2150 to U+218F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Arrows
Zeichenbereich (in hexadezimaler Angabe): U+2190 to U+21FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Mathematical Operators
Zeichenbereich (in hexadezimaler Angabe): U+2200 to U+22FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Miscellaneous Technical
Zeichenbereich (in hexadezimaler Angabe): U+2300 to U+23FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Control Pictures
Zeichenbereich (in hexadezimaler Angabe): U+2400 to U+243F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Optical Character Recognition
Zeichenbereich (in hexadezimaler Angabe): U+2440 to U+245F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Enclosed Alphanumerics
Zeichenbereich (in hexadezimaler Angabe): U+2460 to U+24FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Box Drawing
Zeichenbereich (in hexadezimaler Angabe): U+2500 to U+257F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Block Elements
Zeichenbereich (in hexadezimaler Angabe): U+2580 to U+259F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Geometric Shapes
Zeichenbereich (in hexadezimaler Angabe): U+25A0 to U+25FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Miscellaneous Symbols
Zeichenbereich (in hexadezimaler Angabe): U+2600 to U+26FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Dingbats
Zeichenbereich (in hexadezimaler Angabe): U+2700 to U+27BF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
CJK Symbols and Punctuation
Zeichenbereich (in hexadezimaler Angabe): U+3000 to U+303F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Hiragana
Zeichenbereich (in hexadezimaler Angabe): U+3040 to U+309F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Katakana
Zeichenbereich (in hexadezimaler Angabe): U+30A0 to U+30FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Bopomofo
Zeichenbereich (in hexadezimaler Angabe): U+3100 to U+312F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Hangul Compatibility Jamo
Zeichenbereich (in hexadezimaler Angabe): U+3130 to U+318F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Kanbun
Zeichenbereich (in hexadezimaler Angabe): U+3190 to U+319F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Enclosed CJK Letters and Months
Zeichenbereich (in hexadezimaler Angabe): U+3200 to U+32FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
CJK Compatibility
Zeichenbereich (in hexadezimaler Angabe): U+3300 to U+33FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
CJK Unified Ideographs
Zeichenbereich (in hexadezimaler Angabe): U+4E00 to U+9FA5
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Hangul Syllables
Zeichenbereich (in hexadezimaler Angabe): U+AC00 to U+D7A3
Genaue Code-Tabelle mit grafischer Zeichendarstellung
High Surrogates
Zeichenbereich (in hexadezimaler Angabe): U+D800 to U+DB7F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Private Use High Surrogates
Zeichenbereich (in hexadezimaler Angabe): U+DB80 to U+DBFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Low Surrogates
Zeichenbereich (in hexadezimaler Angabe): U+DC00 to U+DFFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Private Use Area
Zeichenbereich (in hexadezimaler Angabe): U+E000 to U+F8FF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
CJK Compatibility Ideographs
Zeichenbereich (in hexadezimaler Angabe): U+F900 to U+FAFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Alphabetic Presentation Forms
Zeichenbereich (in hexadezimaler Angabe): U+FB00 to U+FB4F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Arabic Presentation Forms-A
Zeichenbereich (in hexadezimaler Angabe): U+FB50 to U+FDFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Combining Half Marks
Zeichenbereich (in hexadezimaler Angabe): U+FE20 to U+FE2F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
CJK Compatibility Forms
Zeichenbereich (in hexadezimaler Angabe): U+FE30 to U+FE4F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Small Form Variants
Zeichenbereich (in hexadezimaler Angabe): U+FE50 to U+FE6F
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Arabic Presentation Forms-B
Zeichenbereich (in hexadezimaler Angabe): U+FE70 to U+FEFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Halfwidth and Fullwidth Forms
Zeichenbereich (in hexadezimaler Angabe): U+FF00 to U+FFEF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Specials
Zeichenbereich (in hexadezimaler Angabe): U+FFF0 to U+FFFF
Genaue Code-Tabelle mit grafischer Zeichendarstellung
Für fernöstliche Wort-/Silbenzeichen steht auf den WWW-Seiten des Unicode-Konsortiums eine grafische Datenbank zur Verfügung. In der Unihan-Datenbank für fernöstliche Zeichen können Sie in verweis-sensitiven Grafiken auf Grundzeichen klicken und erhalten dann jeweils eine Liste der davon abgeleiteten Einzelzeichen. Die Darstellung ist durchweg grafisch.
Auf den WWW-Seiten des Unicode-Konsortiums gibt es ferner eine Tabelle mit Zeichen, die für die künftige Aufnahme in das Unicode-System vorgesehen sind. Mehr dazu im WWW unter der Überschrift Proposed Unicode Characters.
weiter: | Zeichensätze und Unicodes in HTML verwenden |
zurück: | Zeichensätze (iso-8559-Familie und andere) |