Codice Unicode

Unicode è uno standard internazionale che assegna un codice unico a ogni carattere di ogni lingua scritta nel mondo. Inizialmente pensato per codificare 65.536 caratteri usando 16 bit, è stato poi espanso per supportare oltre un milione di caratteri unici utilizzando fino a 21 bit.

Tuttavia, con il passare del tempo, è diventato evidente che c'erano molti più caratteri di quanto si pensasse inizialmente, compresi caratteri storici e simboli diversi dalle lettere e dai numeri. Pertanto, Unicode è stato ampliato per utilizzare fino a 21 bit per ogni carattere, consentendo la rappresentazione di oltre un milione di caratteri unici.

Nonostante ciò, solo una piccola porzione di questi codici è attualmente utilizzata. I codici sono organizzati in 17 "piani", ognuno dei quali contiene spazio per 65.536 caratteri. Di questi, solo sei piani sono attualmente in uso, e il primo piano, noto come Piano Multilingue di Base (BMP), è sufficiente per rappresentare la maggior parte delle lingue moderne..

Uno dei problemi con l'uso di Unicode direttamente è che può richiedere molto spazio, specialmente per i caratteri che possono essere rappresentati con meno bit. Per risolvere questo problema, sono state create diverse codifiche, come UTF-8, UTF-16 e UTF-32, che trasformano i codici Unicode in sequenze di byte. UTF-8 è particolarmente popolare perché è compatibile con l'antico standard ASCII e i caratteri più comuni richiedono meno byte, rendendolo efficiente per molte lingue. Inoltre, UTF-8 ha la proprietà che i caratteri più comuni richiedono meno byte, il che lo rende efficiente per molte lingue, compreso l'inglese.

Ad esempio, il simbolo del copyright, che ha il punto di codice Unicode U+00A9, è rappresentato in UTF-8 da due byte: C2 e A9. D'altra parte, un carattere meno comune come il simbolo di disuguaglianza, con punto di codice U+2260, richiede tre byte in UTF-8: E2, 89 e A0.

Oltre a UTF-8, esistono altre codifiche di Unicode come UTF-16 e UTF-32, che utilizzano rispettivamente 2 e 4 byte per unità di codifica. Queste codifiche possono essere più efficienti di UTF-8 per alcuni testi, ma sono meno comuni.

    Tabella dei caratteri Unicode (0000-0FFF)

    La tabella è strutturata in righe e colonne, dove la colonna più a sinistra contiene la parte iniziale del codice esadecimale, e l'intestazione della colonna contiene la seconda parte del codice esadecimale. Per trovare il codice esadecimale di un carattere, devo concatenare questi due valori.

    Per esempio, per trovare il codice del simbolo tilde "~", prendo il valore "007" della riga corrispondente e il valore "E" della colonna corrispondente, ottenendo "007E", che è il codice esadecimale del carattere "~".

    Per utilizzare un carattere in una pagina HTML, XHTML o in un documento XML, devo convertire il codice esadecimale in codice decimale e inserirlo tra "&#" e ";".

    Ad esempio, il simbolo "@" ha un codice esadecimale di 0040, che corrisponde al valore decimale 64. Per includere "@" in una pagina HTML, XHTML o in un documento XML, scrivo @ che verrà visualizzato come "@".

    Latino base

    0 1 2 3 4 5 6 7 8 9 A B C D E F
    000 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
    001 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
    002 SP ! " # $ % & ' ( ) * + , - . /
    003 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
    004 @ A B C D E F G H I J K L M N O
    005 P Q R S T U V W X Y Z [ \ ] ^ _
    006 ` a b c d e f g h i j k l m n o
    007 p q r s t u v w x y z { | } ~ DEL

    Latino esteso

    0 1 2 3 4 5 6 7 8 9 A B C D E F
    008 PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
    009 DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
    00A NB SP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY - ® ¯
    00B ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
    00C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
    00D Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
    00E à á â ã ä å æ ç è é ê ë ì í î ï
    00F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

    Latino esteso A

    0 1 2 3 4 5 6 7 8 9 A B C D E F
    010 Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď
    011 Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ
    012 Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į
    013 İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ
    014 ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ
    015 Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş
    016 Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů
    017 Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ

    Latino esteso B

    0 1 2 3 4 5 6 7 8 9 A B C D E F
    018 ƀ Ɓ Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə
    019 Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ ƙ ƚ ƛ Ɯ Ɲ ƞ Ɵ
    01A Ơ ơ Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư
    01B ư Ʊ Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ
    01C ǀ ǁ ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ
    01D ǐ Ǒ ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ
    01E Ǡ ǡ Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ
    01F ǰ DZ Dz dz Ǵ ǵ Ƕ Ƿ Ǹ ǹ Ǻ ǻ Ǽ ǽ Ǿ ǿ
    020 Ȁ ȁ Ȃ ȃ Ȅ ȅ Ȇ ȇ Ȉ ȉ Ȋ ȋ Ȍ ȍ Ȏ ȏ
    021 Ȑ ȑ Ȓ ȓ Ȕ ȕ Ȗ ȗ Ș ș Ț ț Ȝ ȝ Ȟ ȟ
    022 Ƞ ȡ Ȣ ȣ Ȥ ȥ Ȧ ȧ Ȩ ȩ Ȫ ȫ Ȭ ȭ Ȯ ȯ
    023 Ȱ ȱ Ȳ ȳ ȴ ȵ ȶ ȷ ȸ ȹ Ⱥ Ȼ ȼ Ƚ Ⱦ ȿ
    024 ɀ Ɂ ɂ Ƀ Ʉ Ʌ Ɇ ɇ Ɉ ɉ Ɋ ɋ Ɍ ɍ Ɏ ɏ

    Estensione

    0 1 2 3 4 5 6 7 8 9 A B C D E F
    025 ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ
    026 ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ
    027 ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ
    028 ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ
    029 ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ
    02A ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ ʩ ʪ ʫ ʬ ʭ ʮ ʯ

    Simboli

    Simboli 0 1 2 3 4 5 6 7 8 9 A B C D E F
    02B ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ʹ ʺ ʻ ʼ ʽ ʾ ʿ
    02C ˀ ˁ ˂ ˃ ˄ ˅ ˆ ˇ ˈ ˉ ˊ ˋ ˌ ˍ ˎ ˏ
    02D ː ˑ ˒ ˓ ˔ ˕ ˖ ˗ ˘ ˙ ˚ ˛ ˜ ˝ ˞ ˟
    02E ˠ ˡ ˢ ˣ ˤ ˥ ˦ ˧ ˨ ˩ ˪ ˫ ˬ ˭ ˮ ˯
    02F ˰ ˱ ˲ ˳ ˴ ˵ ˶ ˷ ˸ ˹ ˺ ˻ ˼ ˽ ˾ ˿

    Combinazioni diacroniche

    0 1 2 3 4 5 6 7 8 9 A B C D E F
    030 ò ó ô õ ō ŏ ȯ ö ő ǒ ȍ
    031 ȏ ơ
    032 ǫ
    033 o̿
    034 ò ó ö́ ͏
    035
    036

    Lettere greche

    Greco 0 1 2 3 4 5 6 7 8 9 A B C D E F
    037 ʹ ͵ ͺ ͻ ͼ ͽ ;
    038 ΄ ΅ Ά · Έ Ή Ί Ό Ύ Ώ
    039 ΐ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
    03A Π Ρ Σ Τ Υ Φ Χ Ψ Ω Ϊ Ϋ ά Ϊ Ϋ ί
    03B ΰ α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
    03C π ρ ς σ τ υ φ χ ψ ω ϊ ϋ ό ϊ ϋ
    03D ϐ ϑ ϒ ϓ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ ϝ Ϟ ϟ
    03E Ϡ ϡ Ϣ ϣ Ϥ ϥ Ϧ ϧ Ϩ ϩ Ϫ ϫ Ϭ ϭ Ϯ ϯ
    03F ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϸ ϸ Ϲ Ϻ ϻ ϼ Ͻ Ͼ Ͽ

    Questi sono solo alcuni tra le centinaia di migliaia di caratteri disponibili nel codice Unicode, i caratteri più frequenti nel mondo occidentale

     


     

    Segnalami un errore, un refuso o un suggerimento per migliorare gli appunti

    FacebookTwitterLinkedinLinkedin
    knowledge base
    1. Informatica
    2. Il computer
    3. La programmazione
    4. Information Retrieval ( IR )
    5. Intelligenza artificiale
    6. La teoria della complessità