Conjuntos de caracteres HTML


Para exibir uma página HTML corretamente, o navegador deve saber qual conjunto de caracteres (codificação) usar:

Exemplo

<meta charset="UTF-8">

Conjuntos de caracteres HTML

A especificação HTML5 incentiva os desenvolvedores da Web a usar o conjunto de caracteres UTF-8!

Este nem sempre foi o caso. A codificação de caracteres para a web inicial era ASCII.

Mais tarde, do HTML 2.0 ao HTML 4.01, o ISO-8859-1 foi considerado o conjunto de caracteres padrão.

Com XML e HTML5, o UTF-8 finalmente chegou e resolveu muitos problemas de codificação de caracteres.


No início: ASCII

Os dados do computador são armazenados como códigos binários (01000101) na eletrônica.

Para padronizar o armazenamento de texto, foi criado o American Standard Code for Information Interchange (ASCII). Ele definiu um número binário exclusivo para cada caractere armazenável para suportar os números de 0 a 9, o alfabeto maiúsculo e minúsculo (az, AZ) e caracteres especiais como ! $ + - ( ) @ < > , .

Como o ASCII usava 7 bits para o caractere, ele só poderia representar 128 caracteres diferentes.

A maior fraqueza com ASCII, foi que excluiu letras não inglesas.

ASCII ainda está em uso hoje, especialmente em grandes sistemas de computador mainframe.

Para uma visão mais detalhada, estude nossa Referência ASCII Completa .


No Windows: Windows-1252

Windows-1252 era o conjunto de caracteres padrão no Windows, até o Windows 95.

É uma extensão para ASCII, com caracteres internacionais adicionados.

Ele usa um byte completo (8 bits) para representar 256 caracteres diferentes.

Como o Windows-1252 é o padrão no Windows, ele é suportado por todos os navegadores.

Para uma visão mais detalhada, estude: The Complete Windows-1252 Reference .



Em HTML 4: ISO-8859-1

O conjunto de caracteres mais usado no HTML 4 foi o ISO-8859-1.

ISO-8859-1 é uma extensão para ASCII, com caracteres internacionais adicionados.

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

Em HTML 4, um conjunto de caracteres diferente do ISO-8859-1 pode ser especificado na tag <meta>:

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Todos os processadores HTML 4 também suportam UTF-8:

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Quando um navegador detecta o ISO-8859-1, normalmente o padrão é o Windows-1252, porque o Windows-1252 tem mais 32 caracteres internacionais.

Para um olhar mais atento, por favor estude: The Complete ISO-8859-1 Reference


Em HTML5: Unicode UTF-8

A especificação HTML5 incentiva os desenvolvedores da Web a usar o conjunto de caracteres UTF-8.

Exemplo

<meta charset="UTF-8">

Um conjunto de caracteres diferente de UTF-8 pode ser especificado na tag <meta>:

Exemplo

<meta charset="ISO-8859-1">

O Unicode Consortium desenvolveu os padrões UTF-8 e UTF-16, porque os conjuntos de caracteres ISO-8859 são limitados e não são compatíveis com um ambiente multilíngue.

O Padrão Unicode abrange (quase) todos os caracteres, pontuações e símbolos do mundo.

Todos os processadores HTML5 e XML suportam UTF-8, UTF-16, Windows-1252 e ISO-8859.

Para uma visão mais detalhada, estude: The Complete Unicode Reference .