Uni Code

Unicode Wikipdia, a enciclopdia livre
http://pt.wikipedia.org/wiki/Unicode
Unicode
Origem: Wikipdia, a enciclopdia livre.
Unicode um padro que permite aos computadores representar e manipular, de forma consistente, texto de qualquer sistema de escrita existente. Publicado
no livro The Unicode Standard[1],[2] o padro consiste de pouco mais de 107 mil caracteres[3], um conjunto de diagramas de cdigos para referncia visual,
uma metodologia para codificao e um conjunto de codificaes padres de caracteres, uma enumerao de propriedades de caracteres como caixa alta e
caixa baixa, um conjunto de arquivos de computador com dados de referncia, alm de regras para normalizao, decomposio, ordenao alfabtica e
renderizao.
Atualmente, promovido e desenvolvido pela Unicode Consortium, uma organizao sem fins lucrativos que coordena o padro, e que possui o objetivo de um
dia substituir esquemas de codificao de caractere existentes pelo Unicode e pelos esquemas padronizados de transformao Unicode (chamado Unicode
Transformation Format, ou UTF). Seu desenvolvimento feito em conjunto com a Organizao Internacional para Padronizao (ISO) e compartilha o
repertrio de caracteres com o ISO/IEC 10646: o Conjunto Universal de Caracteres (UCS). Ambos funcionam equivalentemente como codificadores de
caracteres, mas o padro Unicode fornece muito mais informao para implementadores, cobrindo em detalhes tpicos como ordenao alfabtica e
visualizao.
Srie Unicode
Unicode
UCS
UTF-7
UTF-8
UTF-16
UTF-32/UCS-4
SCSU
Punycode
Seu sucesso em unificar conjuntos de caracteres levou a um uso amplo e predominante na internacionalizao e localizao de programas de computador. O padro foi
implementado em vrias tecnologias recentes, incluindo XML, Java e sistemas operacionais modernos.
ndice
1 Viso geral
2 Origem e desenvolvimento
3 Sistemas de escrita suportados
3.1 Desenvolvimento
4 Mapeamento e codificao
4.1 Armazenamento, transferncia e processamento
4.2 Caracteres pr-compostos e caracteres combinados
4.2.1 Ligaduras
5 Uso em diversos sistemas
5.1 Sistemas operacionais
5.2 Correio eletrnico
5.3 World Wide Web
5.4 Fontes tipogrficas
5.5 Subconjuntos padronizados
1 de 11
18/03/2013 22:41
6 Mtodos de entrada
7 Notas e referncias
8 Ver tambm
9 Ligaes externas
Viso geral
O Unicode possui o objetivo explcito de transcender as limitaes de codificaes de carcter tradicionais, como as definidas
pelo padro ISO 8859, que possuem grande uso em vrios pases mas que permanecem em sua maioria incompatveis umas
com as outras. Vrias codificaes de carcter tradicionais compartilham um problema comum, ao permitirem processamento
bilngue (geralmente usando caracteres romanos e a lngua local), mas no processamento multilngue (processamento de
lnguas arbitrrias misturadas umas com as outras).
O Unicode codifica os caracteres em si - grafemas e unidades tais como grafemas - em vez de codificar glifos variantes para
tais caracteres. No caso de caracteres chineses, essa estratgia geralmente leva a controvrsias quanto distino entre um
caractere e seus glifos variantes.
Na rea de processamento de texto, o Unicode possui o papel de fornecer um nico cdigo - um nmero e no um glifo - para
cada carcter. Em outras palavras, o Unicode representa um carcter em uma forma abstrata e deixa questes sobre
renderizao (como tamanho, forma, fonte ou estilo) para outro software, como um navegador ou um editor de texto. Esse
simples objetivo torna-se complicado pelas concesses feitas pelos desenvolvedores do padro a fim de encorajar uma
adoo mais rpida.
Os 256 primeiros cdigos Unicode so idnticos aos do padro ISO 8859-1, de forma que trivial converter texto ocidental
existente. Diversos caracteres idnticos foram codificados mltiplas vezes em diferentes cdigos para preservar distines
usadas por codificaes legadas, permitindo assim a converso de tais codificaes para Unicode e vice versa, sem perder
qualquer informao. Da mesma forma, enquanto o Unicode permite combinar caracteres, ele tambm codifica verses
pr-compostas da maioria das combinaes mais comuns de letra/diacrtico. Por exemplo, o carcter "" pode ser
representado por U+0065 (letra latina "e" minsculo) combinado com U+0301 (diacrtico "acento agudo"), mas tambm pode
ser representado como U+00E9 (letra latina "e" com diacrtico "acento agudo").
O padro ainda inclui outros itens relacionados, como propriedades de caracteres, formas de normalizao de texto e ordem
bidirecional de visualizao (para a correta visualizao de texto lido da direita esquerda, como em lngua rabe ou
hebraica).
Histrico de revises
Data de
Verso
lanamento
ISBN
Sistemas
Cdigos
de escrita
outubro de
1991
1.0
ISBN
0-201-56788-1
24
7.161
junho de
1992
1.0.1
ISBN
0-201-60845-6
25
28.359
junho de
1993
1.1
24
34.233
25
38.950
25
38.952
38
49.259
julho de 1996 2.0
ISBN
0-201-48345-9
maio de 1998 2.1

setembro de
1999
3.0
maro de
2001
3.1
41
94.205
maro de
2002
3.2
45
95.221
52
96.447
59
97.720
64
99.089
abril de 2008 5.1
75
100.713
outubro de
2009
90
107.361
abril de 2003 4.0

maro de
2005
ISBN
0-201-61633-5
ISBN
0-321-18578-1
4.1
julho de 2006 5.0
5.2
ISBN
0321480910
Quando se escreve sobre um carcter Unicode, normalmente se usa-se "U+" seguido de um nmero hexadecimal que indica o
cdigo do carcter.
2 de 11
18/03/2013 22:41
Origem e desenvolvimento
Entre 1986 e 1987, iniciou-se na Xerox o trabalho de construo de um banco de dados para mapear o relacionamento entre caracteres idnticos dos alfabetos japons, chins
tradicional e chins simplificado, a fim de construir uma fonte tipogrfica para caracteres chineses estendidos. O grupo de funcionrios envolvidos inclua Huan-mei Liao, Nelson
Ng, Dave Opstad e Lee Collins. At ento, os utilizadores da Xerox usavam JIS para estender o conjunto original de caracteres chineses. Na mesma poca, na Apple Inc. se
iniciou a discusso sobre um conjunto universal de caracteres. O grupo da Xerox comea uma discusso sobre questes multilngues com Mark Davis, da Apple. J em dezembro
de 1987 registrado o primeiro uso documentado do termo "Unicode".
A partir de 1988 comeam discusses sobre uma largura fixa ou varivel de bytes para a representao dos cdigos, e uma das primeiras propostas o sistema de Davis com uma
largura fixa de 16 bits com o nome "High Text", em oposio a "Low Text" para o padro ASCII. Nos estudos so levados em conta comparaes entre o acesso de texto em
largura fixa e varivel, investigaes sobre os requisitos para se utilizar 16 bits em sistemas computacionais e uma estimativa inicial de contagem de todos os caracteres existentes,
para definir se 16 bits seriam mesmo o suficiente.[4]
Em abril, os primeiros prottipos comearam a ser construdos na Apple, decidindo-se incorporar suporte ao padro no TrueType, o padro de fontes tipogrficas da empresa.
Em janeiro de 1989 a Metaphor decide implementar uma codificao 16-bit para suportar internacionalizao em seu conjunto de software. Nos meses seguintes, as freqentes
reunies do grupo Unicode contam com a presena de representantes de empresas como Metaphor, Sun, Adobe, HP e NeXT. Tais reunies evoluram at o comit tcnico do
Unicode, com a formao da Unicode Consortium dois anos aps.
Em setembro, o grupo decide usar padres ISO j existentes para ordenaes de sistemas de escrita e nomeao de esquemas. No ms seguinte, o padro apresentado para a
Microsoft e a IBM, em conjunto com a cooperao entre Apple e Microsoft com o TrueType. O padro tambm foi apresentado ao grupo de internacionalizao do Unix.
A partir do incio de 1990, a Microsoft comea a participar das reunies do Unicode. Em junho a vez da IBM comear a participar mais ativamente. No mesmo ano iniciado o
trabalho para a formao de um consrcio ao padro. Em 3 de janeiro de 1991 a Unicode Consortium fundada, como Unicode, Inc. na Califrnia, Estados Unidos. No dia 25
realizada a primeira reunio dos membros, e ainda em janeiro formado o comit tcnico Unicode. No ms seguinte, um dos primeiros artigos sobre o Unicode aparece no New
York Times[5]. Atualmente, qualquer empresa ou pessoa disposta a pagar os custos de associao pode se tornar membro da organizao; os membros incluem, virtualmente,
todas as principais empresas de software e hardware interessadas em padres de processamento de texto, tais como Adobe Systems, Apple, Google, HP, IBM, Microsoft e Xerox.
Outras instituies incluem a Universidade de Berkeley, o governo da ndia e o governo do Paquisto.[6]
Sistemas de escrita suportados
3 de 11
18/03/2013 22:41
A codificao Unicode para tifinagh.
A codificao Unicode para o alfabeto ori.
O Unicode cobre quase todos os sistemas de escritas em uso atualmente, incluindo:

Alfabeto rabe
Alfabeto armnio
Alfabeto bengali
Braille
Alfabeto cherokee
Alfabeto copta
Alfabeto cirlico
Devanagari
Alfabeto ge'ez
Alfabeto georgiano
Alfabeto grego
Alfabeto gujarati
Alfabeto gurmukhi
Caracteres chineses
Hangul
Alfabeto hebraico
Hiragana e Katakana
Alfabeto fontico internacional (AFI)
Alfabeto khmer
Alfabeto kannada
Alfabeto latino
Alfabeto mongoliano
Alfabeto birmans
N'Ko
Alfabeto ori
Alfabeto siraco
Alfabeto tamil
Alfabeto tailands
Alfabeto tibetano
Tifinagh
Alfabeto yi
Bopomofo
O padro adicionou outros sistemas de escrita e cobrir mais, incluindo sistemas histricos ou extintos usados primordialmente pela academia, tais como:
Escrita cuneiforme
Alfabeto deseret
Escrita Linear B
Ogham
Alfabeto etrusco
Alfabeto fencio
Runas
Alfabeto ugartico
lfico
Desenvolvimento
Apesar de mais de trinta sistemas de escrita serem includos no Unicode, ainda restam outros por codificar. Novas adies de caracteres para sistemas j codificados tambm
ocorrem, tais como smbolos matemticos e musicais. Michael Everson, Rick McGowan e Ken Whistler mantm uma lista de tais sistemas e um rascunho de codificao na
pgina oficial do Unicode Consortium[7]. Para alguns sistemas j adicionados ao rascunho de desenvolvimento, propostas de codificao so feitas at que se encontre um
consenso que leve aprovao. Para outros sistemas, no so feitas propostas at que comunidades acadmicas envolvidas aprovem o repertrio de caracteres e outros detalhes.
Entre os sistemas de escrita esperando codificao, esto os hierglifos egpcios, fencios, e maias, alm do alfabeto babilnico e outros de carter cuneiforme.
Mapeamento e codificao
Armazenamento, transferncia e processamento
4 de 11
18/03/2013 22:41
O armazenamento dos cdigos Unicode no processamento de texto apresenta o desafio de a maioria dos programas de computador escritos no mundo ocidental utilizar somente
codificaes de 8 bits 1 byte (como o padro ASCII), j que o suporte ao Unicode comeou somente nos ltimos anos. Similarmente, na representao de sistemas de
escrita asiticos, o modelo baseado em ASCII de caracteres de 2 bytes no pode mesmo em teoria codificar mais que 32 768[8] caracteres e, na prtica, as arquiteturas impem
limites ainda menores. Tais limites so insuficientes mesmo s tendo em conta as necessidade de acadmicos da lngua chinesa.
A lgica interna de muitos programas legados tipicamente permite somente 8 bits para cada caractere, tornando impossvel o uso de mais de 256 cdigos[9] sem processamento
especial. Programas 16-bit suportam somente dezenas de milhares de caracteres. Por outro lado, o Unicode j definiu pouco mais de 107 mil caracteres codificados.
Desenvolvedores de sistemas j sugeriram diversos mecanismos para implementar o padro; a escolha de cada um depende do espao de armazenamento disponvel,
compatibilidade de cdigo fonte e interoperabilidade com outros sistemas.
O Unicode define dois mtodos de mapeamento de cdigos Unicode em cdigos de implementao, UTF (Formato de Transformao Unicode, do ingls Unicode
Transformation Format) e UCS (Conjunto Universal de Caracteres, do ingls Universal Character Set). Os nmeros associados aos nomes dos mapeamentos indicam o nmero
de bits por cdigo (no caso de UTF) ou o nmero de bytes por cdigo (no caso de UCS). UTF-8 e UTF-16 so possivelmente as mais usadas.
A UTF-7 uma codificao no to popular usada para a codificao em 7 bits, e normalmente considerada obsoleta. Pode ser usada quando h restries a caracteres com o
oitavo bit ligado; por exemplo, quando s se podem usar caracteres ASCII vlidos. No faz parte do padro, sendo apresentada apenas como uma recomendao. J a
UTF-EBCDIC possui largura varivel e maximiza a compatibilidade com EBCDIC, mas tambm no faz parte do padro.
Por outro lado, a UTF-8 uma codificao de muito usada, e que maximiza a compatibilidade com ASCII. Utiliza entre um e quatro bytes por cdigo e, sendo compacta para o
sistemas latino e compatvel com ASCII nos cdigos at 127, fornece um padro de facto de codificao para a converso de textos para o formato Unicode. usada pelas mais
recentes distribuies Linux como uma substituta para codificaes legadas na manipulao de texto. A UTF-8 representa uma forma de otimizar o espao alocado para textos
Unicode. Considerando por exemplo um texto escrito em lngua inglesa, percebe-se que raramente so utilizados caracteres fora do escopo do ASCII, isto , os primeiros 127
cdigos Unicode. Isso significa que se for utilizada uma codificao de largura fixa de 16 bits, o segundo byte de cada carcter muito provavelmente estar vazio, nulo,
inutilizado. Para arquivos grandes a sobrecarga desse espao intil alocado passa a ser relevante. Tendo uma largura variada, o UTF-8 define que caracteres ASCII so
representados com somente um byte. Alm de otimizar o espao alocado no caso de caracteres ASCII, isso garante a paridade entre ASCII e UTF-8, facilitando a traduo de
texto ASCII legado para o Unicode. Uma propriedade adicional do UTF-8 diz respeito ao truncamento de cadeias de caracteres Unicode. Alguns cdigos (predominantemente
legados) de processamento de cadeias de caracteres definem que um nico byte nulo (0x00) representa o fim da cadeia. Como visto anteriormente, num texto Unicode de largura
fixa de 16 bits, o segundo byte de cada carcter frequentemente nulo em textos latinos. Isso interpretado incorretamente como o final da cadeia de texto, problema que no
acontece com o UTF-8 devido a otimizao do espao eliminando-se os tais caracteres nulos.
No campo de codificaes 16-bit, a UCS-2 uma codificao de largura fixa que suporta somente o plano bsico de lnguas, considerado obsoleto. No faz parte do padro. J a
UTF-16 uma codificao 16-bit de largura varivel. Ela pode incluir uma ou duas palavras 16-bit para suportar outros caracteres. usada por vrias API, freqentemente por
compatibilidade com cdigos desenvolvidos quando o Unicode era baseado em UCS-2. A UTF-16 o padro de codificao para a API do sistema operacional Microsoft
Windows, da linguagem de programao Java (J2SE, desde a verso 1.5) e dos ambientes .NET. Para caracteres do plano bsico de lnguas do Unicode, a UCS-2 e a UTF-16 so
idnticas. Tanto UCS-2 quanto UTF-16 especificam a marca de ordem de byte (BOM) para ser usada no comeo dos arquivos de texto, uma tcnica que pode ser usada para a
deteco do endianamento de acordo com a arquitetura. Alguns desenvolvedores adotaram a tcnica em outras codificaes; como no UTF-8, que apesar de no precisar da
indicao da ordem do byte, usa a tcnica para marcar o texto como sendo Unicode. O BOM representado pelo cdigo Unicode U+FEFF, e possui a propriedade de
desambiguar a ordenao de bytes, independente da codificao Unicode usada. O resultado da m interpretao do endianamento U+FFFE, um cdigo ilegal. Portanto, o
sistema que ler o texto Unicode saber que deve permutar os bytes se o BOM assim indicar. O cdigo U+FEFF em outros locais do texto seno o incio convertido num smbolo
sem aparncia nem efeito no texto seno o de prevenir ligaduras tipogrficas. Tambm, as unidadesFE eFF nunca aparecem em UTF-8. O mesmo carcter convertido para UTF-8
torna-se a sequnciaEF BB BF. Entretanto, nem todo texto Unicode possui o BOM.
5 de 11
18/03/2013 22:41
A UTF-32 uma codificao 32-bit de largura fixa amplamente usada na representao interna de texto em programas (no durante armazenamento ou transmisso), j que todo
sistema operacional Unix que utiliza os compiladores GCC para gerar executveis utiliza UTF-32 como o padro de codificao wide character. Verses recentes da linguagem de
programao Python (desde 2.2) tambm podem ser configuradas para usar UTF-32 como a representao de Unicode para cadeias de caracteres. A UCS-4 fornece
funcionalidade equivalente ao UTF-32, ainda que no faa parte do padro. Codificaes de 32 bits garantem a representao de todos os cdigos Unicode sem qualquer tipo de
transformao, mas ocupam bastante espao de armazenamento.
H tambm diversas outras codificaes disponveis, algumas delas que representam somente partes de todo o padro Unicode, como o Windows-1252 (europeu ocidental) e o
ISO-8859-1 (Latin-1). Por outro lado, os UTF possuem a capacidade de armazenar todos os cdigos Unicode. Para outros subconjuntos do padro, ver a seo "Subconjuntos
padronizados" abaixo.
Caracteres pr-compostos e caracteres combinados

O Unicode inclui um mecanismo para modificar o formato de caracteres, estendendo o repositrio de glifos suportados. Isso cobre o
uso de combinao de marcas diacrticas, o que permite que uma letra seja combinada com um acento, por exemplo. Entretanto, por
questes de compatibilidade, o padro tambm inclui uma quantidade considervel de caracteres pr-compostos, associando o
smbolo de uma letra combinada com um acento em um cdigo distinto ao cdigo da letra e ao cdigo do acento. Para vrios casos, o
utilizador possui vrias maneiras de codificar o mesmo caractere. Para padronizar essas opes, o padro ainda fornece um
mecanismo de equivalncia cannica.
Um exemplo o Hangul, o alfabeto coreano. O Unicode fornece um mecanismo para compor slabas Hangul com seus
subcomponentes individuais, conhecidos como Hangul Jamo. Entretanto, o padro tambm fornece todas as 11 172 combinaes de
slabas Hangul pr-compostas.
O diacrtico "gancho" e suas diversas formas

de representao.
Os ideogramas chineses, japoneses e coreanos possuem atualmente cdigos apenas para suas formas pr-compostas. Entretanto, a maioria dos ideogramas possuem e combinam
elementos mais simples, radicais, que o Unicode poderia decompor, tal como acontece com o Hangul. Tentativas para decompor ideogramas no foram bem sucedidas pois o
processo no to simples e regular como se esperava.
Ligaduras
Como em rabe e o devanagari, vrios sistemas de escrita possuem regras ortogrficas especiais que requerem que certas combinaes de letras sejam feitas por ligaduras
tipogrficas. As regras de formao de ligaduras podem ser complexas, requerendo tecnologias especiais de formatao de texto como o OpenType (da Adobe e Microsoft),
Graphite (da SIL International) ou AAT (da Apple Inc.). Instrues tambm so embarcadas em fontes para informar o sistema operacional quanto impresso correta de
diferentes seqncias de caracteres.
Uso em diversos sistemas

Sistemas operacionais
O Unicode tornou-se o esquema predominante para o processamento interno de texto, e por vezes tambm para o armazenamento (apesar de muitos textos ainda estarem
6 de 11
18/03/2013 22:41
armazenados em codificaes legadas). As primeiras implementaes usavam predominantemente UCS-2, mudando posteriormente para UTF-16 (j que esta codificao a mais
compatvel para suportar caracteres fora do plano bsico). O sistema mais conhecido nessa situao foi o Windows NT (e seus descendentes Windows 2000 e Windows XP). Os
ambientes de bytecode das plataformas Java e.NET, o sistema operacional Mac OS X e o ambiente grfico KDE tambm usam o UTF-16 para a representao interna.
O UTF-8 (originalmente desenvolvido para o Plan 9) tornou-se a principal codificao para a maioria dos sistemas operacionais Unix-like por ser um substituto simples dos
conjuntos de caracteres estendidos do ASCII.
Correio eletrnico
Definido como o padro da Internet para a extenso do correio eletrnico, o MIME define dois mecanismos diferentes para a codificao de caracteres no-ASCII em e-mails,
dependendo de como os caracteres esto no cabealhos das mensagens, como no campo "assunto", ou no corpo da mensagem. Em ambos os casos, o conjunto original de
caracteres identificado assim como uma codificao de transferncia. Para a transmisso de e-mail Unicode, a codificao de caracteres UTF-8 e a codificao de transferncia
Base64 so recomendadas. O Base64 garante uma transmisso segura mesmo para servidores de e-mail legados de 7-bit ainda em operao. Caso a mensagem esteja codificada
em UTF-7, a codificao de transmisso no necessria para servidores 7-bit.
Vrios aplicativos clientes de correio eletrnico possuem suporte a Unicode no corpo das mensagens. Entretanto, a maioria no envia a mensagem em Unicode por padro, e
poucos sistemas so configurados para exibir todo o repertrio do padro.
O suporte Unicode para o cabealho de e-mails mais problemtico, pois diversos padres devem ser usados para lidar com dados que no sejam ASCII. O RFC 2047 fornece
suporte para a codificao no ASCII dos campos "assunto" e "nome real". O RFC 3490 fornece suporte para a codificao do domnio do endereo de e-mail (a parte posterior
ao "@"). O nome da caixa de e-mail (a parte anterior ao "@") limitado a um sub-conjunto de caracteres ASCII visveis, assim como definido pelo RFC 2822.
No suporte Unicode para o corpo de e-mails, mensagens HTML podem usar entidades HTML para usar qualquer caractere Unicode mesmo que a codificao do e-mail est num
padro legado. Para mensagens em texto puro, deve-se usar MIME para especificar uma codificao.
World Wide Web

Os navegadores j suportam diversas sub-codificaes UTF h vrios anos, especialmente UTF-8. Os problemas de visualizao
derivam principalmente de questes relacionadas a fontes tipogrficas. Num caso particular, o Internet Explorer no imprime na tela
diversos cdigos Unicode exceto quando indicado explicitamente qual a fonte que contm os smbolos.
Todas as recomendaes W3C (a organizao que padroniza a WWW) usam o Unicode como o conjunto de caracteres de
documentos desde o HTML 4.0, sem um mtodo de mapeamento especfico; anteriormente utilizava-se o conjunto ASCII 6-bit
ISO-8859-1.
Apesar de regras sintticas poderem afetar a ordem em que os caracteres podem aparecer, por definio tanto documentos HTML
quanto XML (incluindo o XHTML) suportam caracteres da maioria dos cdigos Unicode, exceto pela maioria dos cdigos de controle
C0 e C1, o bloco de cdigo D800-DFFF e qualquer cdigo que termine em FFFE ou FFFF.
Os caracteres so armazenados em XML e HTML na forma binria do cdigo Unicode (desde que a codificao em uso suporte o
cdigo). Alternativamente, pode-se armazen-los como referncias numricas baseadas no seu respectivo cdigo, seguindo o formato
7 de 11
Captura de tela do navegador Firefox

2.0.0.5 ilustrando suporte tanto ao chins
tradicional quanto ao alfabeto latino.
18/03/2013 22:41
&#valor ; (no
qual "valor" o cdigo em notao decimal) ou &#xvalor; (cdigo em notao hexadecimal; note o "x" antes do valor);
Por exemplo, as refernciasΔ,Й,ק,م,๗,あ,叶,葉 e냻 so visualizadas nos navegadores respectivamente como ,

, ,, , , ,
e . Se as fontes apropriadas existem, tais smbolos aparecem respectivamente como a letra maiscula grega "delta", a letra maiscula cirlica "I curta", a
letra rabe "Meem", a letra hebraica "Qof", o numeral tailands 7, o hiragana japons "A", a letra do chins simplificado "folha", a letra do chins tradicional "folha" e a slaba
hangul "Nyaelh".
Outro formato para representar caracteres Unicode so as entidades de caractere, um texto que "apelida" um determinado cdigo do padro. Por exemplo,—, assim
como— ou—, representa o cdigo U+2014, o caractere "".
Em requisies HTTP, as URL so codificadas obrigatoriamente usando o prefixo "%", geralmente em UTF-8 para representar Unicode.
Fontes tipogrficas
Tanto os padres TrueType quanto OpenType suportam Unicode, tornando comum a existncia de fontes baseadas nessa codificao. Tais formatos de fontes mapeiam cdigos
Unicode em glifos. Diversas fontes existem no mercado, mas muito poucas suportam a maioria dos cdigos Unicode. Fontes Unicode geralmente focam o suporte a ASCII (o
bsico) e um conjunto particular de cdigos, isto , um conjunto particular de sistema de escrita. O motivo para tal a falta duma aplicao para a visualizao de um grande
conjunto de cdigos (um programa de computador que contm diversos sistemas de escrita juntos), a quantidade de recursos que as fontes usam do sistema computacional e o
fato de os sistemas operacionais e aplicaes possurem inteligncia suficiente para obter informao dum glifo a partir dum arquivo diferente se necessrio (por exemplo, usando
substituio de fontes). A tarefa de desenvolver um conjunto consistente de instrues de visualizao para dezenas de milhares de glifos rdua.
Subconjuntos padronizados
Diversos subconjuntos do Unicode so padronizados: o Microsoft Windows suporta desde a verso NT 4.0 o WGL-4 com 652 caracteres, que representa todas as lnguas
europias contemporneas usando os sistemas de escrita latino, grego ou cirlico. Outros conjuntos padronizados incluem os subconjuntos multilinguais europeus: MES-1
(sistemas latinos somente, 335 caracteres), MES-2 (sistemas latinos, grego e cirlico, 1063 caracteres)[10] e MES-3A & MES-3B. Note que o MES-2 inclui todo o MES-1, que por
sua vez contm todo o WGL-4.
WGL-4, MES-1 e MES-2
Linha
Clula(s)
02
8 de 11
Exemplos
Latino bsico (007F)
A, i, [, _, @
A0FF
Suplemento Latino-1 (80FF)
, , , ,
0013, 1415, 162B, 2C2D, 2E4D, 4E4F, 507E, 7F
Latino estendido-A (007F)
, , , ,
8F, 92, B7, DE-EF, FAFF
Latino estendido-B (80FF)
, , , ,
181B, 1E1F
Latino estendido-B ( 004F)
59, 7C, 92
Extenses IPA (50AF)
, , , ,
BBBD, C6, C7, C9, D6, D8DB, DC, DD, DF, EE
Letras de modificao de espao

(B0FF)
, , , ,
00
01
Bloco(s)
207E
18/03/2013 22:41
03
7475, 7A, 7E, 848A, 8C, 8EA1, A3CE, D7, DAE1
Grego (70FF)
, , , ,
04
00, 010C, 0D, 0E4F, 50, 515C, 5D, 5E5F, 9091, 92C4, C7C8, CBCC, D0EB,
EEF5, F8F9
Cirlico (00FF)
, , , ,
1E
0203, 0A0B, 1E1F, 4041, 5657, 6061, 6A6B, 8085, 9B, F2F3
Latino estendido adicional

(00FF)
, , , ,
1F
0015, 181D, 2045, 484D, 5057, 59, 5B, 5D, 5F7D, 80B4, B6C4, C6D3,
D6DB, DDEF, F2F4, F6FE
Grego estendido (00FF)
, , , ,
1314, 15, 17, 1819, 1A1B, 1C1D, 1E, 2022, 26, 30, 3233, 393A, 3C, 3E
Pontuao geral (006F)
, , , ,
44, 4A, 7F, 82
Superescritos e subescritos
(709F)
, , =, ,
A3A4, A7, AC, AF
Smbolos de moeda (A0CF)
, , , , $
05, 13, 16, 22, 26, 2E
Smbolos letterlike (004F)
, , , ,
5B5E
Formas de nmeros (508F)
9093, 9495, A8
Setas (90FF)
, , , ,
22
00, 02, 03, 06, 08-09, 0F, 1112, 15, 191A, 1E1F, 27-28, 29, 2A, 2B, 48, 59,
6061, 6465, 8283, 95, 97
Operadores matemticos (00FF)
, , , ,
23
02, 0A, 2021, 292A
Smbolos tcnicos miscelneos

(00FF)
, , , ,
00, 02, 0C, 10, 14, 18, 1C, 24, 2C, 34, 3C, 506C
Desenho de caixas (007F)
[[-->]], , , ,
80, 84, 88, 8C, 9093
Elementos de bloco (809F)
, [[]], ,
[[]],
A0A1, AAAC, B2, BA, BC, C4, CACB, CF, D8D9, E6
Formas geomtricas (A0FF)
, , , ,
26
3A3C, 40, 42, 60, 63, 6566, 6A, 6B
Smbolos miscelneos (00FF)
, , , ,
F0
(0102)
reas de uso privado (00FF )
FB
0102
Formas de apresentao alfabtica

(004F)
FF
FD
rea especial
20
21
25
, , ,
Quando o programa de computador de visualizao no puder visualizar e processar o cdigo Unicode corretamente, geralmente, imprime somente um retngulo, uma rea em
aberto ou o caractere Unicode de substituio (U+FFFD, ), para indicar que o caractere no reconhecido. Alguns sistemas tentam retornar mais informaes sobre os
caracteres no reconhecidos. A fonte LastResort da Apple imprime um glifo substituto indicando o bloco Unicode do caractere. J a fonte Unidode da SIL imprime uma caixa
com o valor hexadecimal do caractere.
Mtodos de entrada
9 de 11
18/03/2013 22:41
Por questes evidentes, um teclado de computador no pode ter uma tecla distinta para cada caractere Unicode existente: sua superfcie teria que ser muito grande, tornando-o
inutilizvel. Por isso, diversos sistemas operacionais fornecem alternativas para digitar qualquer cdigo do repertrio Unicode.
No Microsoft Windows (desde a verso 2000), o utilitrio "Mapa de Caracteres" fornece controles de edio para toda tabela at U+FFFF. Programas de processamento de texto
como o Microsoft Word possuem um controle similar embarcado, atravs de insero de smbolo. Quando se sabe o cdigo desejado, pode-se simular a digitao de um caractere
Unicode atravs da combinao Alt + + +#, no qual # representa o cdigo hexadecimal at FFFF. Por exemplo, Alt + + + F + 1 produzir o caractere "". Esse mtodo
tambm funciona em vrios outros aplicativos Windows, mas no em aplicaes que usam o controle de caixa de edio padro do sistema.
Utilizadores do Apple Macintosh possuem uma funcionalidade similar, no Mac OS X e no Mac OS 8.5 ou superior: Option +#, no qual # o cdigo Unicode em hexadecimal de
quatro dgitos.
O ambiente grfico GNOME fornece um utilitrio tal qual o "Mapa de Caracteres" que mostra os caracteres ordenados pelo bloco Unicode ou pelo sistema de escrita. Quando
sabe-se o cdigo desejado, a produo do caractere pode ser feita de acordo com a norma ISO 14755: Ctrl + Shift +#, no qual # o cdigo Unicode em hexadecimal. Deve-se
adicionar ao cdigo o caractere "U" caso se esteja usando a verso 2.15 ou superior.
O interpretador de comandos do Linux permite que caracteres Unicode sejam produzidos pela combinao Alt +#, em que # o cdigo Unicode em decimal digitado no teclado
numrico. Para funcionar, o modo Unicode deve ser ativado e uma fonte suportada deve ser usada. A norma ISO 14755 (descrita acima) tambm implementada.
A partir da verso 7.5 do navegador Opera, permitido produzir caracteres Unicode diretamente do campo de texto atravs da combinao Alt +#.
No editor de texto Vim a produo pode ser feita com a combinao Ctrl + V + u +#.
Notas e referncias
1. A ltima verso (julho de 2007) deste livro :
The Unicode Consortium. The Unicode Standard: Version 5.0. 5 ed. [S.l.]: Addison-Wesley Professional, 2006. 1472 p. ISBN 0321480910
2. O ttulo, em portugus, significa "O padro Unicode".
3. The Unicode Standard: A Technical Introduction (http://www.unicode.org/standard/principles.html#What_Characters) (em ingls). Pgina oficial do Unicode (18 de julho de 2007).
Pgina visitada em 20 de julho de 2007.
4. 16 bits conseguem representar 65536 smbolos distintos, ou 216
5. Andrew Pollack (20 de fevereiro de 1991). Universal Computer Code Due (http://query.nytimes.com/gst/fullpage.html?res=9D0CE7DF1E3BF933A15751C0A967958260) (em ingls).
The New York Times. Pgina visitada em 20 de julho de 2007.
6. The Unicode Consortium Members (http://www.unicode.org/consortium/memblogo.html) (em ingls). Pgina oficial do Unicode (17 de julho de 2007). Pgina visitada em 20 de julho
de 2007.
7. Roadmaps to Unicode (http://www.unicode.org/roadmaps/) (em ingls). Pgina oficial do Unicode (10 de dezembro de 2004). Pgina visitada em 20 de julho de 2007.
8. 2 bytes = 16 bits; 65 536 = 216; como o espao de 65 000 valores possui sinal, somente a parte positiva usada: 32 768 valores.
9. 256 = 28; isso significa que oito bytes podem representar 256 valores diferentes.
10. Markus Kuhn (7 de novembro de 1998). Multilingual European Character Set 2 (MES-2) Rationale (http://www.cl.cam.ac.uk/~mgk25/ucs/mes-2-rationale.html) (em ingls). rea
pessoal de Markus Kuhn no stio da Universidade de Cambridge. Pgina visitada em 20 de julho de 2007.
Ver tambm
10 de 11
18/03/2013 22:41
ASCII
Codificao de caracteres
Diacrtico
EBCDIC
Glifo
Internacionalizao de software
ISO/IEC 10646
Smbolos de xadrez em Unicode
Unicode Consortium
Ligaes externas
Stio oficial da Unicode Consortium (http://www.unicode.org) (em ingls)
Uma wiki com imagens de todos os caracteres Unicode (http://www.decodeunicode.org/) (em alemo e em ingls)
Busca de caracteres Unicode pelo nome (http://www.fileformat.info/info/unicode/char/search.htm) (em ingls)
Todos os caracteres Unicode impressos em uma imagem (http://www.ianalbert.com/misc/unichart.php) (em ingls)
libUniCode-plus Wiki (http://sourceforge.net/projects/libunicode-plus/) (em ingls) - criao e manipulao de tabelas Unicode
Unicode Input Tool/Converter (https://addons.mozilla.org/pt-BR/firefox/addon/unicode-input-toolconverter/) (em ingls) - Complemento para o Firefox com suporte ao
portugus.
Obtida de "http://pt.wikipedia.org/w/index.php?title=Unicode&oldid=34458855"
Categoria: Unicode
Esta pgina foi modificada pela ltima vez (s) 09h51min de 15 de maro de 2013.
Este texto disponibilizado nos termos da licena Atribuio-Partilha nos Mesmos Termos 3.0 no Adaptada (CC BY-SA 3.0); pode estar sujeito a condies adicionais.
Consulte as condies de uso para mais detalhes.
11 de 11
18/03/2013 22:41

Uni Code

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Uni Code

Transféré par

Droits d'auteur :

Formats disponibles

Unicode Wikipdia, a enciclopdia livre

Unicode Wikipdia, a enciclopdia livre

julho de 1996 2.0

maio de 1998 2.1

abril de 2008 5.1

abril de 2003 4.0

julho de 2006 5.0

Unicode Wikipdia, a enciclopdia livre

Sistemas de escrita suportados

Unicode Wikipdia, a enciclopdia livre

A codificao Unicode para tifinagh.

A codificao Unicode para o alfabeto ori.

O Unicode cobre quase todos os sistemas de escritas em uso atualmente, incluindo:

Unicode Wikipdia, a enciclopdia livre

Unicode Wikipdia, a enciclopdia livre

Caracteres pr-compostos e caracteres combinados

O diacrtico "gancho" e suas diversas formas

Uso em diversos sistemas

Unicode Wikipdia, a enciclopdia livre

World Wide Web

Captura de tela do navegador Firefox

Unicode Wikipdia, a enciclopdia livre

Por exemplo, as referncias&#916;,&#1049;,&#1511;,&#1605;,&#3671;,&#12354;,&#21494;,&#33865; e&#45307; so visualizadas nos navegadores respectivamente como ,

Latino bsico (007F)

Suplemento Latino-1 (80FF)

0013, 1415, 162B, 2C2D, 2E4D, 4E4F, 507E, 7F

Latino estendido-A (007F)

8F, 92, B7, DE-EF, FAFF

Latino estendido-B (80FF)

Latino estendido-B ( 004F)

Extenses IPA (50AF)

BBBD, C6, C7, C9, D6, D8DB, DC, DD, DF, EE

Letras de modificao de espao

Unicode Wikipdia, a enciclopdia livre

7475, 7A, 7E, 848A, 8C, 8EA1, A3CE, D7, DAE1

Latino estendido adicional

Grego estendido (00FF)

Pontuao geral (006F)

44, 4A, 7F, 82

A3A4, A7, AC, AF

Smbolos de moeda (A0CF)

05, 13, 16, 22, 26, 2E

Smbolos letterlike (004F)

Formas de nmeros (508F)

Operadores matemticos (00FF)

02, 0A, 2021, 292A

Smbolos tcnicos miscelneos

Desenho de caixas (007F)

80, 84, 88, 8C, 9093

Elementos de bloco (809F)

A0A1, AAAC, B2, BA, BC, C4, CACB, CF, D8D9, E6

Formas geomtricas (A0FF)

3A3C, 40, 42, 60, 63, 6566, 6A, 6B

Smbolos miscelneos (00FF)

reas de uso privado (00FF )

Formas de apresentao alfabtica

Unicode Wikipdia, a enciclopdia livre

Unicode Wikipdia, a enciclopdia livre

Vous aimerez peut-être aussi

Por exemplo, as refernciasΔ,Й,ק,م,๗,あ,叶,葉 e냻 so visualizadas nos navegadores respectivamente como ,