Cel.ro

Standardul ASCII pentru codificarea caracterelor

by gmp
Published on: 13 August 2011
Categories: Office
Comments: No Comments

ASCII (American Standard Code for Information Interchange) este un sistem de codificare a caracterelor bazat pe ordinea din alfabetul englez. Setul de caractere ASCII (codificat pe 7 biţi) conţine 128 de caractere: litere mari şi mici, cifre, elemente de punctuaţie şi coduri de control. Fiecare caracter este reprezentat de un număr (“codul ASCII“), prin intermediul căruia sistemele de calcul şi alte echipamente de comunicaţie (de exemplu dispozitivele mobile) stochează şi prelucrează informaţia de tip text.

Primele 32 coduri (cu valorile zecimale 0 – 31) sunt rezervate pentru caractere de control (caractere neprintabile, cu rol în controlul dispozitivelor care folosesc text – de exemplu, imprimantele – sau în furnizarea unor metainformaţii. Un alt caracter de control este cel cu codul 127 (Delete).

Termenul Extended ASCII descrie extensiile adăugate standardului ASCII din nevoia de a acoperi mai multe caractere, specifice şi altor limbi. Extended ASCII codifică caracterele pe 8 biţi, adăugând astfel încă 128 de posibile coduri pentru caractere din alte limbi, pe lângă cele 128 de coduri ale standardului ASCII. Astfel, Extended ASCII ocupă toţi cei 8 biţi ai unui octet, unitate de măsură cu care operează sistemele de calcul, şi este reprezentativ pentru un număr relativ suficient de caractere internaţionale, deşi nu acoperă integral toate alfabetele existente.

Extensiile standardului ASCII sunt descrise de standardele ISO 8859-x:

  • ISO 8859-1 (Latin1) – limbile indo-europene apusene
  • ISO 8859-2 (Latin2) – limbile indo-europene răsăritene (nu şi limba română)
  • ISO 8859-3 (Latin3) – limbile esperanto şi malteză (şi, în trecut, şi limba turcă)
  • ISO 8859-4 (Latin4) – limbile baltice şi laponă
  • ISO 8859-5 (Cyrillic) – limbile bulgară, bielorusă, macedoneană, rusă, sârbă (şi, în trecut, şi limba ucrainiană)
  • ISO 8859-6 (Arabic) – limba arabă (fără caracterele suplimentare pentru farsi şi urdu)
  • ISO 8859-7 (Greek) – limba greacă modernă
  • ISO 8859-8 (Hebrew) – limba ebraică
  • ISO 8859-9 (Latin5) – înlocuieşte literele folosite numai în Islanda cu cele mai folosite în limba turcă
  • ISO 8859-10 (Latin6) – reorganizează formatul Latin4, pentru a fi mai util şi pentru a putea acoperi întreaga regiune nordică
  • ISO 8859-11 (Thai) – limba thailandeză
  • ISO 8859-12 – nu se foloseşte
  • ISO 8859-13 (Baltic Rim) – reorganizează şi îmbunătăţeşte formatele ISO 8859-4 şi 8859-10
  • ISO 8859-14 (Latin8 sau Celtic) – limbile galeză, gaelică şi bretonă
  • ISO 8859-15 (Latin9, uneori, dar neoficial, Latin0) – reorganizează formatul Latin1, adăugând simbolul pentru euro (€)
  • ISO 8859-16 (South-Eastern European) – limbile albaneză, croată, maghiară, poloneză, română şi slovenă, dar şi franceză, italiană şi gaelică (ortografie nouă), prima variantă publicată în 2001.

ASCII control characters (character code 0-31), ASCII printable characters (character code 32-127), The extended ASCII codes (character code 128-255) – ISO 8859-1, The extended ASCII codes (character code 160-255) – ISO 8859-16 (Romania)

ISO/IEC 8859-1

ISO/IEC 8859-16

Comparison ISO/IEC 8859 standards family

Pentru codificarea caracterelor în standardul Unicode vezi capitolul Standardul Unicode pentru codificarea caracterelor.

No Comments - Leave a comment

Leave a comment



Utilizator: , data curenta: 16 April 2024