Inoltre Unicode definisce ancora cio che tipo di chiama “Unicode transformation format” (UTF) ed “Universal character arnesi” (UCS): questi non sono altre che le codifiche necessarie verso la spettacolo esterna di Unicode.
Delle diverse codifiche definite ed usate nella pretesto di Unicode, mi limitero per nominare le oltre a importanti (ad esempio sono ed quel usate durante oltre a del 90% dei casi).
UTF-16 (prima UCS-2, descritta nel lussurioso coraggio come regole U): una trascrizione multibyte ad esempio permette la esibizione dell’intero catalogo Unicode ancora quale rappresenta l’intero BMP (65536 codepoint) sopra una codifica di modello “wide” costituita da due byte (questa epoca l’originale norme UCS-2, ad esempio epoca mediante rango di esprimere il scapolo BMP). Laddove UTF-16 e UCS-2 sono piu volte confuse, UTF-16 e l’unica di uso presente. Durante UTF-16 qualsivoglia spirito viene legalizzato in una sequela di ritardo variabile da 2 per quattro ottetti (byte), riservando le codifiche verso quattro byte verso codepoint rarissimi gestiti corso “codepoint surrogati”.
Sopra UTF-8 qualunque spirito viene legalizzato durante una sequela di estensione incerto da 1 per quattro ottetti (byte)
UTF 16 definisce di nuovo un adatto importo (Byte-Order-Mark o BOM) che sinon puo sentire verso intuire l’endianness usata nella regole del elenco. Il BOM e immaginato dal codepoint (esadecimale) U+FEFF come circa una macchina big-endian viene capito dalla successione 0xFE,0xFF di nuovo dalla sequenza 0xFF,0xFE su una macchina little endian. Dacche il codepoint sposare un uomo americano per donne Pakistani U+FEFF (Zero-Width No-Break Space : Posto di ampiezza niente ad esempio non consente interruzioni) non puo giammai avere luogo il originario segno di una successione codificata qualora il codepoint U+FFFE non e – manco sara – niente affatto luogo ad indivis spirito affabile, l’apparire di autorita di questi due codepoint all’ modo di una serie codificata permette di estrarre la endianness dell’intera sfilza.
Sopra UTF-8 non esiste insecable BOM (a motivi in precedenza spiegati) sebbene qualche programmi (specialmente operanti per puro windows) ne inseriscono qualcuno (xEF,0xBB,0xBF) paragone per esso addestrato durante UTF-16. Questo e permesso, bensi temerario, dallo standard, ed durante sostanza non fa che rompere le scatole.
UTF-32/UCS-4: una codifica “wide” per lunghezza ossessione: purchessia codepoint di Unicode e rappresentato da una sequela di 4 byte. Sinon applicano le considerazioni sul BOM appunto viste verso UTF-16. Questa norme e usata, sopra familiarita, molto raramente.
Verso causa dei vantaggi illustrati della trascrizione F sulla codificazione U, UTF-8 e oggi la codifica piu usata a la manifestazione esterna di testi ancora testi multilingua. UTF-16 e verso sopra molto usata nella rappresentazione interna delle stringhe (mediante particolari e quella con metodo durante tutti i sistemi operativi Microsoft posteriori a Windows 2000)
Il problema fondamentale, rivisitato
Giunti in realta in conclusione del nostro considerazione (semplificato) dei codici ed codifiche associate, siamo pronti per anelare di assimilare quali inconvenienti possono suscitare il concetto fondamentale che tipo di ho arringa certi articolo fa.
Quegli che razza di succede e che insecable libro (file) predisposto per succedere visualizzato durante una momento tripletta (linguaggio, codifica, endianness) aventure per perdersi sopra di indivisible metodo qualora personalita dei tre componenti viene applicato in appena erronea.
Esiste un’altra opzione, cioe ad esempio sul modo intenzione – quello contro cui viene visualizzato il libro – non esista il font debito verso la visualizzazione (come, mancano i alfabeto Giapponesi). Attuale peccato sinon elimina apertamente installando insecable batteria di font completi (ripetutamente chiamati font Unicode).
Il problematica essenziale e stabilito in quale momento sinon riescono a rifare la tripletta di avvio, quella di traguardo, ed per individuare la modo corretta di spiegazione entro le paio.
Purtroppo, colui che tipo di ho adagio proprio e idoneo e verso pronunciare esso che razza di io (e io celibe, per quel che ne so) chiamo “il principio di non calcolabilita della transcodifica”: