Cel.ro

Standardul Unicode pentru codificarea caracterelor

by
Published on: 14 August 2011
Categories: Office
Comments: No Comments

Unicode este un format definit de către Unicode Consortium pentru codificarea, stocarea şi interpretarea informaţiilor stocate ca text. Scopul acestui standard este să codifice toate caracterele din toate limbile Pământului. Unicode a fost lansat în 1991 şi este în continuă dezvoltare (în 2011 a apărut versiunea Unicode 6.0). Unicode aduce în plus faţă de Estended ASCII, o plajă foarte largă de posibilităţi de codificare a tuturor caracterelor şi semnelor existente, precum şi spaţii de rezervă pentru dezvoltări ulterioare. Deoarece poate acoperi toate seturile de caractere la nivel mondial şi permite adaptarea aplicaţiilor software la diverse limbi, diferenţe regionale şi cerinţe tehnice ale pieţelor, standardul Unicode a început să fie adoptat pe scară din ce în ce mai largă de producători de software, în sisteme de operare, baze de date şi schimb de informaţii pe Internet.

Unicode poate fi implementat prin diferite codificări ale caracterelor: UCS-2 (învechită), UTF-16 (extinde posibilităţile codificării UCS-2) şi UTF-8, cea mai răspândită codificare la ora actuală, devenită cerinţă obligatorie în implementarea protocoalelor Internet şi recomandată ca metodă de codificare implicită în sisteme de operare, limbaje de programare şi aplicaţii software.

În UTF-8 codificarea caracterelor se face pe un număr variabil de octeţi, de la 1 octet pentru caracterele ASCII (ale căror coduri în UTF-8 se păstrează pentru a asigura continuitatea) până la 4 octeţi pentru limbi cu număr foarte mare de caractere (de exemplu, limba chineză).

În fereastra Symbol este posibilă navigarea printre fonturile instalate în sistem şi, dacă se alege setul de caractere Unicode, se pot filtra caracterele după subseturile existente în fontul ales. Subseturile sunt grupuri de simboluri similare, cum ar fi caractere specifice limbii, semne de punctuaţie, forme geometrice, simboluri matematice, grafice, tehnice etc.

Subseturi Unicode

Subset Valori Unicode Cod start (hexa)

Caractere

Basic Latin U+0000 … U+007F 0020

pdf

Latin-1 Supplement U+0080 … U+00FF 00A0

pdf

Latin Extended-A U+0100 … U+017F 0100

pdf

Latin Extended-B U+0180 … U+024F 018F

pdf

IPA Extensions U+0250 … U+02AF 0259

pdf

Spacing Modifier Letters U+02B0 … U+02FF 02C6

pdf

Combining Diacritical Marks U+0300 … U+036F 0300

pdf

Basic Greek and Coptic U+0370 … U+03FF 037E

pdf

Cyrillic U+0400 … U+04FF 0401

pdf

Cyrillic Supplement U+0500 … U+052F
Armenian U+0530 … U+058F
Hebrew U+0590 … U+05FF 05B0 (Extended),
05D0 (Basic)

pdf

Arabic U+0600 … U+06FF 060C (Basic),
0653 (Extended)

pdf

Syriac U+0700 … U+074F
Arabic Supplement U+0750 … U+077F
Thaana U+0780 … U+07BF
NKo U+07C0 … U+07FF
Samaritan U+0800 … U+083F
Devanagari U+0900 … U+097F
Bengali U+0980 … U+09FF
Gurmukhi U+0A00 … U+0A7F
Gujarati U+0A80 … U+0AFF
Oriya U+0B00 … U+0B7F
Tamil U+0B80 … U+0BFF
Telugu U+0C00 … U+0C7F
Kannada U+0C80 … U+0CFF
Malayalam U+0D00 … U+0D7F
Sinhala U+0D80 … U+0DFF
Thai U+0E00 … U+0E7F
Lao U+0E80 … U+0EFF
Tibetan U+0F00 … U+0FFF
Myanmar U+1000 … U+109F
Georgian U+10A0 … U+10FF
Hangul Jamo U+1100 … U+11FF
Ethiopic U+1200 … U+137F
Ethiopic Supplement U+1380 … U+139F
Cherokee U+13A0 … U+13FF
Unified Canadian Aboriginal Syllabics U+1400 … U+167F
Ogham U+1680 … U+169F
Runic U+16A0 … U+16FF
Tagalog U+1700 … U+171F
Hanunoo U+1720 … U+173F
Buhid U+1740 … U+175F
Tagbanwa U+1760 … U+177F
Khmer U+1780 … U+17FF
Mongolian U+1800 … U+18AF
Unified Canadian Aboriginal Syllabics Extended U+18B0 … U+18FF
Limbu U+1900 … U+194F
Tai Le U+1950 … U+197F
New Tai Lue U+1980 … U+19DF
Khmer Symbols U+19E0 … U+19FF
Buginese U+1A00 … U+1A1F
Tai Tham U+1A20 … U+1AAF
Balinese U+1B00 … U+1B7F
Sundanese U+1B80 … U+1BBF
Lepcha U+1C00 … U+1C4F
Ol Chiki U+1C50 … U+1C7F
Vedic Extensions U+1CD0 … U+1CFF
Phonetic Extensions U+1D00 … U+1D7F
Phonetic Extensions Supplement U+1D80 … U+1DBF
Combining Diacritical Marks Supplement U+1DC0 … U+1DFF
Latin Extended Additional U+1E00 … U+1EFF 1E80

pdf

Greek Extended U+1F00 … U+1FFF
General Punctuation U+2000 … U+206F 200C

pdf

Superscripts and Subscripts U+2070 … U+209F 207F

pdf

Currency Symbols U+20A0 … U+20CF 20A3

pdf

Combining Diacritical Marks for Symbols U+20D0 … U+20FF
Letterlike Symbols U+2100 … U+214F 2105

pdf

Number Forms U+2150 … U+218F 2153

pdf

Arrows U+2190 … U+21FF 2190

pdf

Mathematical Operators U+2200 … U+22FF 2202

pdf

Miscellaneous Technical U+2300 … U+23FF 2302

pdf

Control Pictures U+2400 … U+243F
Optical Character Recognition U+2440 … U+245F
Enclosed Alphanumerics U+2460 … U+24FF
Box Drawing U+2500 … U+257F 2500

pdf

Block Elements U+2580 … U+259F 2580

pdf

Geometric Shapes U+25A0 … U+25FF 25A0

pdf

Miscellaneous Symbols U+2600 … U+26FF 263A

pdf

Dingbats U+2700 … U+27BF
Miscellaneous Mathematical Symbols-A U+27C0 … U+27EF
Supplemental Arrows-A U+27F0 … U+27FF
Braille Patterns U+2800 … U+28FF
Supplemental Arrows-B U+2900 … U+297F
Miscellaneous Mathematical Symbols-B U+2980 … U+29FF
Supplemental Mathematical Operators U+2A00 … U+2AFF
Miscellaneous Symbols and Arrows U+2B00 … U+2BFF
Glagolitic U+2C00 … U+2C5F
Latin Extended-C U+2C60 … U+2C7F
Coptic U+2C80 … U+2CFF
Georgian Supplement U+2D00 … U+2D2F
Tifinagh U+2D30 … U+2D7F
Ethiopic Extended U+2D80 … U+2DDF
Cyrillic Extended-A U+2DE0 … U+2DFF
Supplemental Punctuation U+2E00 … U+2E7F
CJK Radicals Supplement U+2E80 … U+2EFF
Kangxi Radicals U+2F00 … U+2FDF
Ideographic Description Characters U+2FF0 … U+2FFF
CJK Symbols and Punctuation U+3000 … U+303F
Hiragana U+3040 … U+309F
Katakana U+30A0 … U+30FF
Bopomofo U+3100 … U+312F
Hangul Compatibility Jamo U+3130 … U+318F
Kanbun U+3190 … U+319F
Bopomofo Extended U+31A0 … U+31BF
CJK Strokes U+31C0 … U+31EF
Katakana Phonetic Extensions U+31F0 … U+31FF
Enclosed CJK Letters and Months U+3200 … U+32FF
CJK Compatibility U+3300 … U+33FF
CJK Unified Ideographs Extension A U+3400 … U+4DBF
Yijing Hexagram Symbols U+4DC0 … U+4DFF
CJK Unified Ideographs U+4E00 … U+9FFF
Yi Syllables U+A000 … U+A48F
Yi Radicals U+A490 … U+A4CF
Lisu U+A4D0 … U+A4FF
Vai U+A500 … U+A63F
Cyrillic Extended-B U+A640 … U+A69F
Bamum U+A6A0 … U+A6FF
Modifier Tone Letters U+A700 … U+A71F
Latin Extended-D U+A720 … U+A7FF
Syloti Nagri U+A800 … U+A82F
Common Indic Number Forms U+A830 … U+A83F
Phags-pa U+A840 … U+A87F
Saurashtra U+A880 … U+A8DF
Devanagari Extended U+A8E0 … U+A8FF
Kayah Li U+A900 … U+A92F
Rejang U+A930 … U+A95F
Hangul Jamo Extended-A U+A960 … U+A97F
Javanese U+A980 … U+A9DF
Cham U+AA00 … U+AA5F
Myanmar Extended-A U+AA60 … U+AA7F
Tai Viet U+AA80 … U+AADF
Meetei Mayek U+ABC0 … U+ABFF
Hangul Syllables U+AC00 … U+D7AF
Hangul Jamo Extended-B U+D7B0 … U+D7FF
High Surrogates U+D800 … U+DB7F
High Private Use Surrogates U+DB80 … U+DBFF
Low Surrogates U+DC00 … U+DFFF
Private Use Area U+E000 … U+F8FF E801

pdf

CJK Compatibility Ideographs U+F900 … U+FAFF
Alphabetic Presentation Forms U+FB00 … U+FB4F FB01

pdf

Arabic Presentation Forms-A U+FB50 … U+FDFF FB50

pdf

Variation Selectors U+FE00 … U+FE0F
Vertical Forms U+FE10 … U+FE1F
Combining Half Marks U+FE20 … U+FE2F
CJK Compatibility Forms U+FE30 … U+FE4F
Small Form Variants U+FE50 … U+FE6F
Arabic Presentation Forms-B U+FE70 … U+FEFF FE80

pdf

Halfwidth and Fullwidth Forms U+FF00 … U+FFEF
Specials U+FFF0 … U+FFFF
Linear B Syllabary U+10000 … U+1007F
Linear B Ideograms U+10080 … U+100FF
Aegean Numbers U+10100 … U+1013F
Ancient Greek Numbers U+10140 … U+1018F
Ancient Symbols U+10190 … U+101CF
Phaistos Disc U+101D0 … U+101FF
Lycian U+10280 … U+1029F
Carian U+102A0 … U+102DF
Old Italic U+10300 … U+1032F
Gothic U+10330 … U+1034F
Ugaritic U+10380 … U+1039F
Old Persian U+103A0 … U+103DF
Deseret U+10400 … U+1044F
Shavian U+10450 … U+1047F
Osmanya U+10480 … U+104AF
Cypriot Syllabary U+10800 … U+1083F
Imperial Aramaic U+10840 … U+1085F
Phoenician U+10900 … U+1091F
Lydian U+10920 … U+1093F
Kharoshthi U+10A00 … U+10A5F
Old South Arabian U+10A60 … U+10A7F
Avestan U+10B00 … U+10B3F
Inscriptional Parthian U+10B40 … U+10B5F
Inscriptional Pahlavi U+10B60 … U+10B7F
Old Turkic U+10C00 … U+10C4F
Rumi Numeral Symbols U+10E60 … U+10E7F
Kaithi U+11080 … U+110CF
Cuneiform U+12000 … U+123FF
Cuneiform Numbers and Punctuation U+12400 … U+1247F
Egyptian Hieroglyphs U+13000 … U+1342F
Byzantine Musical Symbols U+1D000 … U+1D0FF
Musical Symbols U+1D100 … U+1D1FF
Ancient Greek Musical Notation U+1D200 … U+1D24F
Tai Xuan Jing Symbols U+1D300 … U+1D35F
Counting Rod Numerals U+1D360 … U+1D37F
Mathematical Alphanumeric Symbols U+1D400 … U+1D7FF
Mahjong Tiles U+1F000 … U+1F02F
Domino Tiles U+1F030 … U+1F09F
Enclosed Alphanumeric Supplement U+1F100 … U+1F1FF
Enclosed Ideographic Supplement U+1F200 … U+1F2FF
CJK Unified Ideographs Extension B U+20000 … U+2A6DF
CJK Unified Ideographs Extension C U+2A700 … U+2B73F
CJK Compatibility Ideographs Supplement U+2F800 … U+2FA1F
Tags U+E0000 … U+E007F
Variation Selectors Supplement U+E0100 … U+E01EF
Supplementary Private Use Area-A U+F0000 … U+FFFFF
Supplementary Private Use Area-B U+100000 … U+10FFFF

Simbolurile disponibile în subseturile implementate în (normal text):

Basic Latin

Basic Latin

Latin-1

Latin-1

Latin Extended A

Latin Extended A

Latin Extended A

Latin Extended A

Latin Extended B

Latin Extended B

IPA Extensions

IPA Extensions

Spacing Modifiers Letters

Spacing Modifiers Letters

Combining Diacritical Marks

Combining Diacritical Marks

Basic Greek

Basic Greek

Cyrillic

Cyrillic

Hebrew Extended

Hebrew Extended

Basic Hebrew

Basic Hebrew

Basic Arabic

Basic Arabic

Arabic Extended

Arabic Extended

Arabic Extended

Arabic Extended

Latin Extended Additional

Latin Extended Additional

General Punctuation

General Punctuation

Superscript and Subscripts

Superscript and Subscripts

Currency Symbols

Currency Symbols

Letterlike Symbols

Letterlike Symbols

Number Forms

Number Forms

Arrows

Arrows

Mathematical Operators

Mathematical Operators

Miscellaneous Technical

Miscellaneous Technical

Box Drawing

Box Drawing

Block Elements

Block Elements

Geometric Shapes

Geometric Shapes

Miscellaneous Dingbats

Miscellaneous Dingbats

Private Use Area

Private Use Area

Alphabetic Presentation Forms

Alphabetic Presentation Forms

Arabic Presentation Forms A

Arabic Presentation Forms A

Arabic Presentation Forms A

Arabic Presentation Forms A

Arabic Presentation Forms B

Arabic Presentation Forms B

Arabic Presentation Forms B

Arabic Presentation Forms B

Pentru codificarea caracterelor în standardul ASCII vezi capitolul Standardul ASCII pentru codificarea caracterelor.

No Comments - Leave a comment

Leave a comment



Utilizator: , data curenta: 23 November 2024