Unicode este un format definit de către Unicode Consortium pentru codificarea, stocarea şi interpretarea informaţiilor stocate ca text. Scopul acestui standard este să codifice toate caracterele din toate limbile Pământului. Unicode a fost lansat în 1991 şi este în continuă dezvoltare (în 2011 a apărut versiunea Unicode 6.0). Unicode aduce în plus faţă de Estended ASCII, o plajă foarte largă de posibilităţi de codificare a tuturor caracterelor şi semnelor existente, precum şi spaţii de rezervă pentru dezvoltări ulterioare. Deoarece poate acoperi toate seturile de caractere la nivel mondial şi permite adaptarea aplicaţiilor software la diverse limbi, diferenţe regionale şi cerinţe tehnice ale pieţelor, standardul Unicode a început să fie adoptat pe scară din ce în ce mai largă de producători de software, în sisteme de operare, baze de date şi schimb de informaţii pe Internet.
Unicode poate fi implementat prin diferite codificări ale caracterelor: UCS-2 (învechită), UTF-16 (extinde posibilităţile codificării UCS-2) şi UTF-8, cea mai răspândită codificare la ora actuală, devenită cerinţă obligatorie în implementarea protocoalelor Internet şi recomandată ca metodă de codificare implicită în sisteme de operare, limbaje de programare şi aplicaţii software.
În UTF-8 codificarea caracterelor se face pe un număr variabil de octeţi, de la 1 octet pentru caracterele ASCII (ale căror coduri în UTF-8 se păstrează pentru a asigura continuitatea) până la 4 octeţi pentru limbi cu număr foarte mare de caractere (de exemplu, limba chineză).
În fereastra Symbol este posibilă navigarea printre fonturile instalate în sistem şi, dacă se alege setul de caractere Unicode, se pot filtra caracterele după subseturile existente în fontul ales. Subseturile sunt grupuri de simboluri similare, cum ar fi caractere specifice limbii, semne de punctuaţie, forme geometrice, simboluri matematice, grafice, tehnice etc.
Subseturi Unicode
Subset | Valori Unicode | Cod start (hexa) |
Caractere |
Basic Latin | U+0000 … U+007F | 0020 | |
Latin-1 Supplement | U+0080 … U+00FF | 00A0 | |
Latin Extended-A | U+0100 … U+017F | 0100 | |
Latin Extended-B | U+0180 … U+024F | 018F | |
IPA Extensions | U+0250 … U+02AF | 0259 | |
Spacing Modifier Letters | U+02B0 … U+02FF | 02C6 | |
Combining Diacritical Marks | U+0300 … U+036F | 0300 | |
Basic Greek and Coptic | U+0370 … U+03FF | 037E | |
Cyrillic | U+0400 … U+04FF | 0401 | |
Cyrillic Supplement | U+0500 … U+052F | ||
Armenian | U+0530 … U+058F | ||
Hebrew | U+0590 … U+05FF | 05B0 (Extended), 05D0 (Basic) |
|
Arabic | U+0600 … U+06FF | 060C (Basic), 0653 (Extended) |
|
Syriac | U+0700 … U+074F | ||
Arabic Supplement | U+0750 … U+077F | ||
Thaana | U+0780 … U+07BF | ||
NKo | U+07C0 … U+07FF | ||
Samaritan | U+0800 … U+083F | ||
Devanagari | U+0900 … U+097F | ||
Bengali | U+0980 … U+09FF | ||
Gurmukhi | U+0A00 … U+0A7F | ||
Gujarati | U+0A80 … U+0AFF | ||
Oriya | U+0B00 … U+0B7F | ||
Tamil | U+0B80 … U+0BFF | ||
Telugu | U+0C00 … U+0C7F | ||
Kannada | U+0C80 … U+0CFF | ||
Malayalam | U+0D00 … U+0D7F | ||
Sinhala | U+0D80 … U+0DFF | ||
Thai | U+0E00 … U+0E7F | ||
Lao | U+0E80 … U+0EFF | ||
Tibetan | U+0F00 … U+0FFF | ||
Myanmar | U+1000 … U+109F | ||
Georgian | U+10A0 … U+10FF | ||
Hangul Jamo | U+1100 … U+11FF | ||
Ethiopic | U+1200 … U+137F | ||
Ethiopic Supplement | U+1380 … U+139F | ||
Cherokee | U+13A0 … U+13FF | ||
Unified Canadian Aboriginal Syllabics | U+1400 … U+167F | ||
Ogham | U+1680 … U+169F | ||
Runic | U+16A0 … U+16FF | ||
Tagalog | U+1700 … U+171F | ||
Hanunoo | U+1720 … U+173F | ||
Buhid | U+1740 … U+175F | ||
Tagbanwa | U+1760 … U+177F | ||
Khmer | U+1780 … U+17FF | ||
Mongolian | U+1800 … U+18AF | ||
Unified Canadian Aboriginal Syllabics Extended | U+18B0 … U+18FF | ||
Limbu | U+1900 … U+194F | ||
Tai Le | U+1950 … U+197F | ||
New Tai Lue | U+1980 … U+19DF | ||
Khmer Symbols | U+19E0 … U+19FF | ||
Buginese | U+1A00 … U+1A1F | ||
Tai Tham | U+1A20 … U+1AAF | ||
Balinese | U+1B00 … U+1B7F | ||
Sundanese | U+1B80 … U+1BBF | ||
Lepcha | U+1C00 … U+1C4F | ||
Ol Chiki | U+1C50 … U+1C7F | ||
Vedic Extensions | U+1CD0 … U+1CFF | ||
Phonetic Extensions | U+1D00 … U+1D7F | ||
Phonetic Extensions Supplement | U+1D80 … U+1DBF | ||
Combining Diacritical Marks Supplement | U+1DC0 … U+1DFF | ||
Latin Extended Additional | U+1E00 … U+1EFF | 1E80 | |
Greek Extended | U+1F00 … U+1FFF | ||
General Punctuation | U+2000 … U+206F | 200C | |
Superscripts and Subscripts | U+2070 … U+209F | 207F | |
Currency Symbols | U+20A0 … U+20CF | 20A3 | |
Combining Diacritical Marks for Symbols | U+20D0 … U+20FF | ||
Letterlike Symbols | U+2100 … U+214F | 2105 | |
Number Forms | U+2150 … U+218F | 2153 | |
Arrows | U+2190 … U+21FF | 2190 | |
Mathematical Operators | U+2200 … U+22FF | 2202 | |
Miscellaneous Technical | U+2300 … U+23FF | 2302 | |
Control Pictures | U+2400 … U+243F | ||
Optical Character Recognition | U+2440 … U+245F | ||
Enclosed Alphanumerics | U+2460 … U+24FF | ||
Box Drawing | U+2500 … U+257F | 2500 | |
Block Elements | U+2580 … U+259F | 2580 | |
Geometric Shapes | U+25A0 … U+25FF | 25A0 | |
Miscellaneous Symbols | U+2600 … U+26FF | 263A | |
Dingbats | U+2700 … U+27BF | ||
Miscellaneous Mathematical Symbols-A | U+27C0 … U+27EF | ||
Supplemental Arrows-A | U+27F0 … U+27FF | ||
Braille Patterns | U+2800 … U+28FF | ||
Supplemental Arrows-B | U+2900 … U+297F | ||
Miscellaneous Mathematical Symbols-B | U+2980 … U+29FF | ||
Supplemental Mathematical Operators | U+2A00 … U+2AFF | ||
Miscellaneous Symbols and Arrows | U+2B00 … U+2BFF | ||
Glagolitic | U+2C00 … U+2C5F | ||
Latin Extended-C | U+2C60 … U+2C7F | ||
Coptic | U+2C80 … U+2CFF | ||
Georgian Supplement | U+2D00 … U+2D2F | ||
Tifinagh | U+2D30 … U+2D7F | ||
Ethiopic Extended | U+2D80 … U+2DDF | ||
Cyrillic Extended-A | U+2DE0 … U+2DFF | ||
Supplemental Punctuation | U+2E00 … U+2E7F | ||
CJK Radicals Supplement | U+2E80 … U+2EFF | ||
Kangxi Radicals | U+2F00 … U+2FDF | ||
Ideographic Description Characters | U+2FF0 … U+2FFF | ||
CJK Symbols and Punctuation | U+3000 … U+303F | ||
Hiragana | U+3040 … U+309F | ||
Katakana | U+30A0 … U+30FF | ||
Bopomofo | U+3100 … U+312F | ||
Hangul Compatibility Jamo | U+3130 … U+318F | ||
Kanbun | U+3190 … U+319F | ||
Bopomofo Extended | U+31A0 … U+31BF | ||
CJK Strokes | U+31C0 … U+31EF | ||
Katakana Phonetic Extensions | U+31F0 … U+31FF | ||
Enclosed CJK Letters and Months | U+3200 … U+32FF | ||
CJK Compatibility | U+3300 … U+33FF | ||
CJK Unified Ideographs Extension A | U+3400 … U+4DBF | ||
Yijing Hexagram Symbols | U+4DC0 … U+4DFF | ||
CJK Unified Ideographs | U+4E00 … U+9FFF | ||
Yi Syllables | U+A000 … U+A48F | ||
Yi Radicals | U+A490 … U+A4CF | ||
Lisu | U+A4D0 … U+A4FF | ||
Vai | U+A500 … U+A63F | ||
Cyrillic Extended-B | U+A640 … U+A69F | ||
Bamum | U+A6A0 … U+A6FF | ||
Modifier Tone Letters | U+A700 … U+A71F | ||
Latin Extended-D | U+A720 … U+A7FF | ||
Syloti Nagri | U+A800 … U+A82F | ||
Common Indic Number Forms | U+A830 … U+A83F | ||
Phags-pa | U+A840 … U+A87F | ||
Saurashtra | U+A880 … U+A8DF | ||
Devanagari Extended | U+A8E0 … U+A8FF | ||
Kayah Li | U+A900 … U+A92F | ||
Rejang | U+A930 … U+A95F | ||
Hangul Jamo Extended-A | U+A960 … U+A97F | ||
Javanese | U+A980 … U+A9DF | ||
Cham | U+AA00 … U+AA5F | ||
Myanmar Extended-A | U+AA60 … U+AA7F | ||
Tai Viet | U+AA80 … U+AADF | ||
Meetei Mayek | U+ABC0 … U+ABFF | ||
Hangul Syllables | U+AC00 … U+D7AF | ||
Hangul Jamo Extended-B | U+D7B0 … U+D7FF | ||
High Surrogates | U+D800 … U+DB7F | ||
High Private Use Surrogates | U+DB80 … U+DBFF | ||
Low Surrogates | U+DC00 … U+DFFF | ||
Private Use Area | U+E000 … U+F8FF | E801 | |
CJK Compatibility Ideographs | U+F900 … U+FAFF | ||
Alphabetic Presentation Forms | U+FB00 … U+FB4F | FB01 | |
Arabic Presentation Forms-A | U+FB50 … U+FDFF | FB50 | |
Variation Selectors | U+FE00 … U+FE0F | ||
Vertical Forms | U+FE10 … U+FE1F | ||
Combining Half Marks | U+FE20 … U+FE2F | ||
CJK Compatibility Forms | U+FE30 … U+FE4F | ||
Small Form Variants | U+FE50 … U+FE6F | ||
Arabic Presentation Forms-B | U+FE70 … U+FEFF | FE80 | |
Halfwidth and Fullwidth Forms | U+FF00 … U+FFEF | ||
Specials | U+FFF0 … U+FFFF | ||
Linear B Syllabary | U+10000 … U+1007F | ||
Linear B Ideograms | U+10080 … U+100FF | ||
Aegean Numbers | U+10100 … U+1013F | ||
Ancient Greek Numbers | U+10140 … U+1018F | ||
Ancient Symbols | U+10190 … U+101CF | ||
Phaistos Disc | U+101D0 … U+101FF | ||
Lycian | U+10280 … U+1029F | ||
Carian | U+102A0 … U+102DF | ||
Old Italic | U+10300 … U+1032F | ||
Gothic | U+10330 … U+1034F | ||
Ugaritic | U+10380 … U+1039F | ||
Old Persian | U+103A0 … U+103DF | ||
Deseret | U+10400 … U+1044F | ||
Shavian | U+10450 … U+1047F | ||
Osmanya | U+10480 … U+104AF | ||
Cypriot Syllabary | U+10800 … U+1083F | ||
Imperial Aramaic | U+10840 … U+1085F | ||
Phoenician | U+10900 … U+1091F | ||
Lydian | U+10920 … U+1093F | ||
Kharoshthi | U+10A00 … U+10A5F | ||
Old South Arabian | U+10A60 … U+10A7F | ||
Avestan | U+10B00 … U+10B3F | ||
Inscriptional Parthian | U+10B40 … U+10B5F | ||
Inscriptional Pahlavi | U+10B60 … U+10B7F | ||
Old Turkic | U+10C00 … U+10C4F | ||
Rumi Numeral Symbols | U+10E60 … U+10E7F | ||
Kaithi | U+11080 … U+110CF | ||
Cuneiform | U+12000 … U+123FF | ||
Cuneiform Numbers and Punctuation | U+12400 … U+1247F | ||
Egyptian Hieroglyphs | U+13000 … U+1342F | ||
Byzantine Musical Symbols | U+1D000 … U+1D0FF | ||
Musical Symbols | U+1D100 … U+1D1FF | ||
Ancient Greek Musical Notation | U+1D200 … U+1D24F | ||
Tai Xuan Jing Symbols | U+1D300 … U+1D35F | ||
Counting Rod Numerals | U+1D360 … U+1D37F | ||
Mathematical Alphanumeric Symbols | U+1D400 … U+1D7FF | ||
Mahjong Tiles | U+1F000 … U+1F02F | ||
Domino Tiles | U+1F030 … U+1F09F | ||
Enclosed Alphanumeric Supplement | U+1F100 … U+1F1FF | ||
Enclosed Ideographic Supplement | U+1F200 … U+1F2FF | ||
CJK Unified Ideographs Extension B | U+20000 … U+2A6DF | ||
CJK Unified Ideographs Extension C | U+2A700 … U+2B73F | ||
CJK Compatibility Ideographs Supplement | U+2F800 … U+2FA1F | ||
Tags | U+E0000 … U+E007F | ||
Variation Selectors Supplement | U+E0100 … U+E01EF | ||
Supplementary Private Use Area-A | U+F0000 … U+FFFFF | ||
Supplementary Private Use Area-B | U+100000 … U+10FFFF |
Simbolurile disponibile în subseturile implementate în (normal text):
Pentru codificarea caracterelor în standardul ASCII vezi capitolul Standardul ASCII pentru codificarea caracterelor.