Charset
Da Wikipedia, l'enciclopedia libera.
I charset, dall'inglese insieme di caratteri o meglio codifica di caratteri, sono dei codici standard legati alla trasmissione di informazioni. Alla base della loro creazione c'è dunque la necessità di comunicare a grandi distanze.
[modifica] Storia dei charset
Ufficialmente, il primo fu il codice Morse, nato nel 1840, seguito dal linguaggio delle bandiere usato in marina.
L'introduzione delle telescriventi porta al codice Baudot del 1930, a 5 bit.
Nel 1963 nasce lo standard ASCII, a 7 bit, che è utilizzato per la nascita di Internet e dei protocolli connessi. Nel 1965 viene approvato lo US-ASCII, che nel 1972 diventa lo standard ISO 646.
Nel 1981 le estensioni al codice ASCII per i caratteri dal 128 al 255 vengono identificate dai codepage PC-DOS e traslate poi per retrocompatibilità nello MS-DOS. Nel 1985 la ISO approva gli standard codepage come ISO 8859-n, dove n è un numero che identifica il particolare codepage.
L'affermarsi di Windows, anche in Asia, porta alle estensioni alle lingue orientali nel 1990 dei codepage di Windows.
La comprensibile babele risultante dallo scambio di email e documenti tra paesi a codepage diverso fu oggetto di attenzione dell'ISO prima con lo standard del 1986 ISO 2022, in vigore ma scarsamente utilizzato, e poi con la proposta del 1991 dell'Unicode 1.0, la cui versione 1.1 del 1993 divene lo standard ISO 10646, lo Universal Character Set o UCS.
Lo UCS-2, che usa due byte per ogni carattere, fu utilizzato dalla Microsoft in Windows NT sin dal 1995 e poi esteso a tutte le altre versioni.
Le definizioni dei formati UTF-8 e UTF-16 datano al 1996, con la versione 2.0 di Unicode. lo UTF (Unicode Transformation Format) divenne lo standard POSIX de facto, ed essendo ratificato dalla RFC 3629, è anche riconosciuto dal W3C. Esistono anche lo UTF-7 e l'UCS 4 .Lo UTF-16 è un'estensione dello UCS 2.
La successiva versione Unicode 3.0 del 1999 introduce la bidirezionalità e la composizione di tabelle, mentre la 4.0 del 2001 include anche le lingue antiche. La 4.1 del 2005 è la versione attualmente in uso.