itasistenta blog

reparatii. instalari. calculatoare. retele. servere. software. Internet.

Standardul ASCII pentru codificarea caracterelor

Published on: 13 August 2011

Categories: Office

Tags: ascii, caractere, codificare, unicode

Comments: No Comments

ASCII (American Standard Code for Information Interchange) este un sistem de codificare a caracterelor bazat pe ordinea din alfabetul englez. Setul de caractere ASCII (codificat pe 7 biţi) conţine 128 de caractere: litere mari şi mici, cifre, elemente de punctuaţie şi coduri de control. Fiecare caracter este reprezentat de un număr (“codul ASCII“), prin intermediul căruia sistemele de calcul şi alte echipamente de comunicaţie (de exemplu dispozitivele mobile) stochează şi prelucrează informaţia de tip text.

Primele 32 coduri (cu valorile zecimale 0 – 31) sunt rezervate pentru caractere de control (caractere neprintabile, cu rol în controlul dispozitivelor care folosesc text – de exemplu, imprimantele – sau în furnizarea unor metainformaţii. Un alt caracter de control este cel cu codul 127 (Delete).

Termenul Extended ASCII descrie extensiile adăugate standardului ASCII din nevoia de a acoperi mai multe caractere, specifice şi altor limbi. Extended ASCII codifică caracterele pe 8 biţi, adăugând astfel încă 128 de posibile coduri pentru caractere din alte limbi, pe lângă cele 128 de coduri ale standardului ASCII. Astfel, Extended ASCII ocupă toţi cei 8 biţi ai unui octet, unitate de măsură cu care operează sistemele de calcul, şi este reprezentativ pentru un număr relativ suficient de caractere internaţionale, deşi nu acoperă integral toate alfabetele existente.

Extensiile standardului ASCII sunt descrise de standardele ISO 8859-x:

ISO 8859-1 (Latin1) – limbile indo-europene apusene
ISO 8859-2 (Latin2) – limbile indo-europene răsăritene (nu şi limba română)
ISO 8859-3 (Latin3) – limbile esperanto şi malteză (şi, în trecut, şi limba turcă)
ISO 8859-4 (Latin4) – limbile baltice şi laponă
ISO 8859-5 (Cyrillic) – limbile bulgară, bielorusă, macedoneană, rusă, sârbă (şi, în trecut, şi limba ucrainiană)
ISO 8859-6 (Arabic) – limba arabă (fără caracterele suplimentare pentru farsi şi urdu)
ISO 8859-7 (Greek) – limba greacă modernă
ISO 8859-8 (Hebrew) – limba ebraică
ISO 8859-9 (Latin5) – înlocuieşte literele folosite numai în Islanda cu cele mai folosite în limba turcă
ISO 8859-10 (Latin6) – reorganizează formatul Latin4, pentru a fi mai util şi pentru a putea acoperi întreaga regiune nordică
ISO 8859-11 (Thai) – limba thailandeză
ISO 8859-12 – nu se foloseşte
ISO 8859-13 (Baltic Rim) – reorganizează şi îmbunătăţeşte formatele ISO 8859-4 şi 8859-10
ISO 8859-14 (Latin8 sau Celtic) – limbile galeză, gaelică şi bretonă
ISO 8859-15 (Latin9, uneori, dar neoficial, Latin0) – reorganizează formatul Latin1, adăugând simbolul pentru euro (€)
ISO 8859-16 (South-Eastern European) – limbile albaneză, croată, maghiară, poloneză, română şi slovenă, dar şi franceză, italiană şi gaelică (ortografie nouă), prima variantă publicată în 2001.