Nsryjdtyk

Unicode
Codifiche UTF-7 UTF-8 CESU-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-EBCDIC SCSU Punycode
UCS
Mappatura
Testo bidirezionale
BOM
Unificazione Han
Unicode eHTML

Logo dell'Unicode Consortium

Unicode è un sistema di codifica che assegna un numero univoco ad ogni carattere usato per la scrittura di testi, in maniera indipendente dalla lingua, dalla piattaforma informatica e dal programma utilizzato.

È stato compilato e viene aggiornato e pubblicizzato dall'Unicode Consortium^[1], un consorzio internazionale di aziende interessate alla interoperabilità nel trattamento informatico dei testi in lingue diverse.

Indice

1 Caratteristiche

2 Struttura del codice
- 2.1 Piano di base multilinguistico (BMP)

3 Sistemi di scrittura rappresentati

4 Cronologia delle versioni

5 Note

6 Voci correlate

7 Altri progetti

8 Collegamenti esterni

Caratteristiche |

Incorpora, nella primissima parte, la codifica ISO/IEC 8859-1^[2], ma va molto oltre, codificando i caratteri usati in quasi tutte le lingue vive e in alcune lingue morte, nonché simboli matematici e chimici, cartografici, l'alfabeto Braille, ideogrammi ecc.

Il codice assegnato al carattere^[3] viene rappresentato con U+, seguito dalle quattro (o sei) cifre esadecimali del numero che lo individua. Viene supportato dai moderni standard della programmazione e del markup come XML, Java, JavaScript, LDAP, CORBA 3.0, e da vari sistemi operativi.

Attualmente non rappresenta ancora tutti i caratteri in uso nel mondo. Essendo ancora in evoluzione, si prefigge di coprire tutti i caratteri rappresentabili, garantendo la compatibilità e la non sovrapposizione con le codifiche dei caratteri già definiti, ma lasciando comunque dei ben precisi campi di codici "non usati", da riservare per la gestione autonoma all'interno di applicazioni particolari.

Struttura del codice |

Unicode era stato originariamente pensato come una codifica a 16 bit (quattro cifre esadecimali) che dava la possibilità di codificare 65.535 (2^16 -1) caratteri. Tanto si riteneva essere sufficiente per rappresentare i caratteri impiegati in tutte le lingue scritte del mondo.
Ora invece lo standard Unicode, che tendenzialmente è perfettamente allineato con la norma ISO/IEC 10646, prevede una codifica fino a 21 bit e supporta un repertorio di codici numerici che possono rappresentare circa un milione di caratteri.
Ciò appare sufficiente a coprire anche i fabbisogni di codifica di scritti del patrimonio storico dell'umanità, nelle diverse lingue e negli svariati sistemi di segni utilizzati.

Al 2009, solo una piccolissima parte di questa disponibilità di codici è assegnata. Per lo sviluppo dei codici sono infatti previsti 17 "piani" ("planes", in inglese), da 00 a 10hex, ciascuno con 65.536 posizioni (quattro cifre esadecimali), ma solo i primi tre e gli ultimi tre piani sono ad oggi assegnati^[4], e di questi il primo, detto anche BMP, è praticamente sufficiente a coprire tutte le lingue più usate.

Concretamente, questo repertorio di codici numerici è serializzato mediante diversi schemi di ricodifica, che consentono l'uso di codici più compatti per i caratteri usati più di frequente. È previsto l'uso di codifiche con unità da 8 bit (byte), 16 bit (word) e 32 bit (double word), descritte rispettivamente come UTF-8, UTF-16 e UTF-32.

Piano	Intervallo	Descrizione	Abbreviazione
0	000000-00FFFF	Basic Multilingual Plane	BMP
1	010000-01FFFF	Supplementary Multilingual Plane	SMP
2	020000-02FFFF	Supplementary Ideographic Plane	SIP
3	030000-03FFFF	Designato preliminarmente come Tertiary Ideographic Plane (TIP), ma nessun carattere gli è stato assegnato al momento^[5].	TIP
4-13	040000-0DFFFF	Attualmente non assegnati
14	0E0000-0EFFFF	Supplementary Special-purpose Plane	SSP
15	0F0000-0FFFFF	Supplementary Private Use Area-A
16	100000-10FFFF	Supplementary Private Use Area-B

Piano di base multilinguistico (BMP) |

Il primo piano (piano 0), il Piano di base multilinguistico (BMP - Basic Multilingual Plane), è quello in cui sono stati assegnati la maggior parte dei caratteri. Il BMP contiene caratteri per quasi tutti i moderni linguaggi e un grande numero di caratteri speciali. La maggioranza dei codici assegnati ai caratteri nel BMP sono stati usati per codificare quelli cinesi, giapponesi e coreani (CJK).

Sistemi di scrittura rappresentati |

Unicode comprende quasi tutti i sistemi di scrittura attualmente utilizzati, fra i quali:

Alfabeto arabo

Alfabeto armeno

Alfabeto bengali

Alfabeto Braille

Alfabeto sillabico Aborigeno Canadese

Alfabeto sillabico Cherokee

Alfabeto copto

Alfabeto cirillico

Alfabeto Devanagari

Alfabeto ebraico

Alfabeto esperanto

Alfabeto etiopico

Alfabeto georgiano

Alfabeto greco

Alfabeto gujarati

Alfabeto gurmukhi (Lingua punjabi)

Alfabeto cinese Han (Ideogrammi Hanzi e Ideogrammi Hanja)

Alfabeto Hangul (Lingua coreana)

Alfabeto Hiragana e Alfabeto Katakana, Ideogrammi Kanji (Lingua giapponese)

Alfabeto fonetico internazionale (IPA)

Alfabeto khmer (Cambogiano)

Alfabeto kannada

Alfabeto lao

Alfabeto latino (base ed esteso)

Alfabeto limbu

Alfabeto malayalam

Alfabeto mongolo

Alfabeto myanmar (Burmese)

Alfabeto N'Ko

Alfabeto oriya

Alfabeto osmanya

Alfabeto sylheti nagari

Alfabeto siriaco

Alfabeto tamil

Alfabeto telugu

Alfabeto tailandese

Alfabeto tibetano

Alfabeto tifinagh

Alfabeto yi

Alfabeto zhuyin (Bopomofo)

In aggiunta a quelli citati, sono disponibili glifi appartenenti a molte lingue morte:

Alfabeto cuneiforme

Alfabeto Deseret

Alfabeto Lineare B

Alfabeto Kharoshti

Alfabeto ogamico

Alfabeto antico italico (Etrusco, Osco e Umbro)

Alfabeto antico persiano

Alfabeto fenicio

Alfabeto gotico

Alfabeto runico

Alfabeto Shavian

Alfabeto ugaritico

Infine, lo Unicode comprende anche molti simboli, come quelli matematici e musicali.

Cronologia delle versioni |

Negli ultimi anni una nuova versione è stata pubblicata praticamente ogni anno a seguito di una media di oltre 1.000 richieste di cambiamenti all'anno.

DP 10646 1989 (Proposta di bozza della norma ISO 10646, indipendente dall'Unicode)

DIS-1 10646 1990 (Prima bozza della norma ISO 10646, indipendente dall'Unicode)

Unicode 1.0.0 ottobre 1991

Unicode 1.0.1 giugno 1992 (Modificato per un eventuale allineamento alla norma ISO 10646)

Unicode 1.1.0 giugno 1993 (Unicode e ISO unificate per la prima volta: i due codici sono identici allo standard ISO 10646-1: 1993)

Unicode 1.1.5 giugno 1995

Unicode 2.0.0 luglio 1996 (Allineata allo standard ISO 10646 estesa)

Unicode 2.1.2 maggio 1998 (Fra gli altri, introduzione del carattere euro: €)

Unicode 2.1.5 agosto 1998

Unicode 2.1.8 dicembre 1998

Unicode 2.1.9 aprile 1999

Unicode 3.0.0 settembre 1999 (Allineata allo standard ISO 10646-1: 2000)

Unicode 3.0.1 agosto 2000

Unicode 3.1.0 marzo 2001 (Allineata allo standard ISO 10646-2: 2001)

Unicode 3.1.1 agosto 2001

Unicode 3.2.0 marzo 2002

Unicode 4.0.0 aprile 2003 (Allineata allo standard ISO 10646: 2003)

Unicode 4.0.1 marzo 2004

Unicode 4.1.0 marzo 2005

Unicode 5.0.0 luglio 2006 oltre 99.000 glifi^[6]

Unicode 5.1.0 aprile 2008

Unicode 5.2.0 ottobre 2009

Unicode 6.0.0 10 ottobre 2010

Unicode 6.1.0 26 gennaio 2012

Unicode 6.2.0 26 settembre 2012

Unicode 6.3.0 30 settembre 2013

Unicode 7.0.0 16 giugno 2014

Unicode 8.0.0 17 giugno 2015

Unicode 9.0.0 21 giugno 2016

Unicode 10.0.0 giugno 2017

Note |

^ (EN) Pagina ufficiale di Unicode Consortium: http://www.unicode.org/consortium/consort.html

^ Detta anche ISO Latin-1 e nota col nomignolo ASCII esteso, che indica però anche molte altre codifiche a 8 bit (basate sul vecchio standard ASCII a 7 bit), che consentiva la rappresentazione fino a 256 caratteri ed era sufficiente per gli alfabeti dell'Europa Occidentale e del Nord America.

^ "Code point", in inglese.

^ Piani assegnati (2009):
1 00-BMP Piano di base Multilinguistico
2 01-SMP piano supplementare multilinguistico
3 02-SIP piano supplementare ideografico
15 0E-SSP piano supplementare per scopi speciali
16 0F-PUA riservato ad aree di uso privato
17 10-PUA riservato ad aree di uso privato

^ Roadmap to the TIP

^ Unicode Consortium: Unicode Character Database 5.0 Released, 18 luglio 2006

Voci correlate |

ASCII

ASCII esteso

Charset

ConScript Unicode Registry

Ordine dei byte (inglese Endianness)

Operatori matematici Unicode

Altri progetti |

Altri progetti

Wikizionario

Wikimedia Commons

Wikizionario contiene il lemma di dizionario «Unicode»

Wikimedia Commons contiene immagini o altri file su Unicode

Collegamenti esterni |

Cos'è Unicode? Dal sito di Unicode

(EN) Indice dei dati Unicode e dei dati Java, su fileformat.info. URL consultato il 20 Maggio 2018.

(DE, EN) DecodeUnicode - Unicode WIKI 98.884 gifs

Semplice HowTo su Unicode e UTF-8, su linkas.it.

(EN) http://www.unicode.org/

(EN) http://www.joelonsoftware.com/articles/Unicode.html Joel on software: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets

.mw-parser-output .CdA{border:1px solid #aaa;width:100%;margin:auto;font-size:90%;padding:2px}.mw-parser-output .CdA th{background-color:#ddddff;font-weight:bold;width:20%}

Controllo di autorità	GND (DE) 4343497-6

Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

[1] (EN) Pagina ufficiale di Unicode Consortium: http://www.unicode.org/consortium/consort.html

[2] Detta anche ISO Latin-1 e nota col nomignolo ASCII esteso, che indica però anche molte altre codifiche a 8 bit (basate sul vecchio standard ASCII a 7 bit), che consentiva la rappresentazione fino a 256 caratteri ed era sufficiente per gli alfabeti dell'Europa Occidentale e del Nord America.

[3] "Code point", in inglese.

[4] Piani assegnati (2009):
1 00-BMP Piano di base Multilinguistico
2 01-SMP piano supplementare multilinguistico
3 02-SIP piano supplementare ideografico
15 0E-SSP piano supplementare per scopi speciali
16 0F-PUA riservato ad aree di uso privato
17 10-PUA riservato ad aree di uso privato

[5] Roadmap to the TIP

[6] Unicode Consortium: Unicode Character Database 5.0 Released, 18 luglio 2006

搜尋此網誌

Nsryjdtyk

Unicode