Informaţia = mesaj ce aduce o precizare într-o problemă ce comportă un anumit grad de incertitudine.
Se consideră un experiment X în cadrul căruia se pot realiza un număr finit de n evenimente elementare: x1, x2, x3, .., xn. Probabilităţile de apariţie ale acestor evenimente le vom nota cu p1, p2, p3, .., pn (pi = numărul cazurilor favorabile evenimentului xi / numărul cazurilor egal posibile ale experimentului).
Deoarece nu se cunoaşte apriori rezultatul experimentului X, înseamnă că acesta conţine un anumit grad de nedeterminare. Se poate afirma că în urma realizării unui experiment se obţine informaţie dacă şi numai dacă rezultatul experimentului înlătură o anumită nedeterminare.
Nedeterminarea unui experiment depinde de probabilităţile de realizare a evenimentelor. Dacă se notează cu H măsura gradului de nedeterminare, pentru experimentul X, aceasta va fi o funcţie H de probabilităţile evenimentelor:
H(X)=H(p1, p2, p3, .., pn)
(Claude E. Shannon, 1948)
Măsura nedeterminării, dată de această formulă, se numeşte, conform lui Claude Shannon, entropia experimentului X sau entropia informaţională.
Schema generală a unui sistem de transmisiune a informaţiei, fără codificare:
Fie:
- X mulţimea mesajelor emise de o sursă de informaţie (intrarea sistemului);
- Y mulţimea mesajelor care se recepţionează (ieşirea sistemului);
- p(y/x) probabilitatea de a recepţiona mesajul y din Y când s-a emis x din X.
Sistemul de transmisiune a informaţiei este format din două mulţimi finite X şi Y şi o probabilitate condiţionată p(y/x), definită pe Y pentru orice x din X şi se notează cu [X, p(y/x), Y].
Mediul prin care se propagă semnalele purtătoare de informaţie, de la sursă la recepţie, se numeşte canalul sistemului de transmisia informaţiei.
vor fi entropiile câmpului de evenimente de la intrare, respectiv ieşire.
Echivocaţia – entropia H(X/Y) – este măsura echivocului care există în câmpul de la intrare când se cunoaşte câmpul de la ieşire.
Eroarea medie – entropia H(Y/X) – este măsura incertitudinii câmpului de la ieşire când se cunoaşte câmpul de la intrare.
CODURI ALFANUMERICE
Deoarece informaţia este codificată cel mai frecvent cu ajutorul literelor alfabetului, cifrelor zecimale şi a altor caractere speciale, pentru a putea fi prelucrată cu ajutorul unui sistem de calcul (care recunoaşte doar cifrele binare 0 şi 1), este nevoie de codificarea binară a informaţiei. Codificarea reprezintă schimbarea formei de prezentare a informaţiei (o funcţie f: X→C), unde C – mulţimea cuvintelor de cod. Este necesară şi funcţia inversă, f -1: C→X, operaţie denumită decodificare.
Codurile în care sunt reprezentate numai numere se numesc coduri numerice, iar cele care cuprind numerele, literele şi semnele speciale se numesc coduri alfanumerice. Printre codurile alfanumerice se numără:
Codul BCD (Binary Coded Decimal)
Reprezintă unul din primele coduri utilizate în tehnica de calcul (anii ’50). O secvenţă de cod are lungimea de 6 biţi/caracter şi se puteau reprezenta cifre, litere (majuscule) şi caractere speciale.
Codul EBCDIC (Extended Binary Coded Decimal Interchange Code)
Secvenţele de cod au o lungime de 8 biţi/caracter. Standardul impus de IBM în 1964 permite construirea a 28 = 256 cuvinte de cod diferite.
Standardul ASCII (American Standard Code for Information Interchange)
Secvenţele de cod au o lungime de 8 biţi/caracter, însă cel mai semnificativ bit are valoarea 0 (se permit astfel 27 = 128 coduri). Prima ediţie a standardului a fost publicată în 1963, iar ultima actualizare a fost făcută în 1986. Codul ASCII conţine:
- setul caracterelor ASCII neimprimabile de control: codurile 0-31
- setul de caractere imprimabile: numerele 32 – 126; 127 – comanda DEL (Delete)
Din necesitatea reprezentării mai multor caractere internaţionale specifice unor limbi a apărut Standardul ASCII extins (Extended ASCII). Acest set include codurile de la standardul ASCII, plus 128 numere prin care se adaugă simboluri suplimentare (codurile 128 – 255).
Standardul Unicode
Publicat în 1991, a fost conceput să înlocuiască standardul ASCII din necesitatea reprezentării unui număr tot mai mare de simboluri din diverse limbi ale lumii. Caracterele de bază din toate limbile scrise existente pot fi reprezentate prin standardul Unicode.
Unicode defineşte două metode de mapare a codurilor: Unicode Transformation Format (UTF) şi Universal Character Set (UCS). UTF include codări pe diverse lungimi: 7, 8, 16 sau 32 biţi; versiunea pe 8 biţi maximizează compatibilitatea cu standardul ASCII (extins).