46-El atributo charset

HTML






El Atributo HTML charset

El atributo charset en HTML se utiliza para definir el conjunto de caracteres que el documento debe utilizar. Esto es importante porque los navegadores necesitan interpretar correctamente los caracteres que se muestran en la página web, como letras, símbolos y números.

El atributo charset se define dentro de la etiqueta <meta> en el <head> del documento HTML. En versiones modernas de HTML (HTML5), el conjunto de caracteres más comúnmente utilizado es UTF-8, que soporta una amplia gama de caracteres, incluidos los caracteres de múltiples idiomas y símbolos especiales.

Usar UTF-8 garantiza que casi todos los caracteres, incluidos emojis y otros símbolos, se rendericen correctamente en la página.


Ejemplo


  <!DOCTYPE html>
  <html lang="es">
    <head>
      <meta charset="UTF-8">
      <title>Ejemplo de charset UTF-8</title>
    </head>
    <body>
      <p>Esto es un ejemplo de texto con charset UTF-8.</p>
      <p>Caracteres especiales: á, é, í, ó, ú, ñ, €</p>
    </body>
  </html>
          



...
El conjunto de caracteres ASCII

ASCII, que significa American Standard Code for Information Interchange (Código Estándar Americano para el Intercambio de Información), es un conjunto de caracteres basado en el alfabeto inglés. Fue diseñado en los años 60 para representar texto en computadoras y dispositivos electrónicos.

El conjunto original de caracteres ASCII usa 7 bits para representar cada carácter, permitiendo hasta 128 caracteres diferentes, que incluyen letras mayúsculas y minúsculas del alfabeto inglés, números del 0 al 9, signos de puntuación y caracteres de control (como el salto de línea).

Aunque ASCII solo cubre el inglés, sigue siendo la base de muchos otros conjuntos de caracteres más complejos, como UTF-8, que amplían su capacidad para incluir caracteres de otros idiomas y símbolos.


Ejemplo


  Caracteres ASCII comunes:
  A = 65
  B = 66
  C = 67
  ...
  a = 97
  b = 98
  c = 99
  ...
  Espacio = 32
  Nuevo línea (LF) = 10
          



El conjunto de caracteres ANSI

El conjunto de caracteres ANSI no es un estándar único, sino un término que a menudo se refiere a una serie de codificaciones de caracteres utilizadas en sistemas Windows antes de la adopción general de UTF-8. El término "ANSI" proviene del American National Standards Institute, pero no define un conjunto específico de caracteres.

En sistemas Windows, los conjuntos de caracteres ANSI, como Windows-1252, extendían el conjunto de caracteres ASCII añadiendo más caracteres para soportar idiomas europeos. Utiliza 8 bits, lo que permite representar hasta 256 caracteres, incluyendo caracteres especiales como acentos, símbolos monetarios, y otros caracteres específicos de algunos idiomas.

Aunque solía ser ampliamente utilizado, ha sido reemplazado en gran medida por UTF-8 y otros estándares más universales, ya que ANSI no soporta de manera eficiente todos los caracteres de diferentes idiomas.


Ejemplo


  Ejemplo de caracteres en el conjunto Windows-1252 (ANSI):
  Á = 193
  É = 201
  Ó = 211
  ñ = 241
  € = 8364  (símbolo del euro añadido en ANSI extendido)
  Símbolo del dólar ($) = 36
          



El conjunto de caracteres ISO-8859-1

ISO-8859-1, también conocido como Latin-1, es un conjunto de caracteres que forma parte de la familia ISO/IEC 8859, desarrollado para codificar alfabetos latinos. Utiliza 8 bits para representar hasta 256 caracteres, incluyendo caracteres especiales, acentos, y símbolos utilizados en idiomas europeos occidentales.

Este conjunto fue ampliamente utilizado en páginas web y documentos antes de la adopción generalizada de UTF-8. Sin embargo, ISO-8859-1 tiene limitaciones, ya que no incluye caracteres de otros alfabetos no latinos, lo que llevó a que fuera reemplazado en muchos contextos por UTF-8.

Aunque todavía es compatible con muchos sistemas y navegadores, hoy en día se prefiere UTF-8 por su capacidad de representar una gama mucho más amplia de caracteres.


Ejemplo


  Ejemplo de caracteres en el conjunto ISO-8859-1:
  á = 225
  é = 233
  ñ = 241
  ¡ = 161 (signo de exclamación invertido)
  ¿ = 191 (signo de interrogación invertido)
          



El conjunto de caracteres UTF-8

UTF-8 (Unicode Transformation Format - 8 bits) es un sistema de codificación de caracteres que puede representar todos los caracteres del estándar Unicode. Se ha convertido en el conjunto de caracteres más utilizado en la web, ya que permite la representación de caracteres de múltiples idiomas y símbolos en un solo documento.

UTF-8 es un sistema de codificación variable, lo que significa que utiliza entre 1 y 4 bytes para representar un carácter. Los caracteres ASCII (los primeros 128 caracteres) se codifican en un solo byte, lo que hace que UTF-8 sea completamente compatible con ASCII. Sin embargo, caracteres de otros idiomas, como los caracteres chinos, árabes o emojis, pueden requerir más bytes.

La capacidad de UTF-8 para manejar una amplia gama de caracteres lo convierte en la opción preferida para aplicaciones modernas y desarrollo web, garantizando que el texto se muestre correctamente en diferentes sistemas y plataformas.


Ejemplo


  Ejemplo de codificación de caracteres en UTF-8:
  á = C3 A1
  € = E2 82 AC
  漢 = E6 BC 94 (carácter chino "yuán")
  😊 = F0 9F 98 8A (emoji "cara sonriendo con ojos de corazón")
          



Diferencias entre conjuntos de caracteres

Existen diferentes conjuntos de caracteres, cada uno con sus propias características y capacidades. La siguiente tabla muestra las diferencias clave entre los conjuntos de caracteres ASCII, ANSI, ISO-8859-1 y UTF-8. Esta información es esencial para entender cómo se manejan los caracteres en diferentes sistemas y aplicaciones.


A continuación se presenta una tabla comparativa de los conjuntos de caracteres:

Valor ASCII ANSI ISO-8859-1 UTF-8 Descripción
32 espacio
33 ! Marca de exclamación
34 " " " " Marca de cotización
35 # signo de número
36 $ $ $ $ signo del dólar
37 % % % % signo de porcentaje
38 & & & & ampersand
39 ' " " " apóstrofe
40 ( ( ( ( paréntesis izquierdo
41 ) ) ) ) paréntesis derecho
42 * * * * asterisco
43 + más
44 , , , , coma
45 - - - - guión
46 . . . . punto
47 / / / / solidus
48 0 0 0 0 dígito cero
49 1 1 1 1 dígito uno
50 2 2 2 2 dígito dos
51 3 3 3 3 dígito tres
52 4 4 4 4 dígito cuatro
53 5 5 5 5 dígito cinco
54 6 6 6 6 dígito seis
55 7 7 7 7 dígito siete
56 8 8 8 8 dígito ocho
57 9 9 9 9 dígito nueve
58 : : : : dos puntos
59 ; ; ; ; punto y coma
60 < menor que
61 = = = = igual
62 > mayor que
63 ? ? ? ? signo de interrogación
64 @ comercial
65 A A A A Letra A
66 B B B B Letra B
67 C C C C Letra C
68 D D D D Letra D
69 E E E E Letra E
70 F F F F Letra F
71 G G G G Letra G
72 H H H H Letra H
73 I I I I Letra I
74 J J J J Letra J
75 K K K K Letra K
76 L L L L Letra L
77 M M M M Letra M
78 N N N N Letra N
79 O O O O Letra O
80 P P P P Letra P
81 Q Q Q Q Letra Q
82 R R R R Letra R
83 S S S S Letra S
84 T T T T Letra T
85 U U U U Letra U
86 V V V V Letra V
87 W W W W Letra W
88 X X X X Letra X
89 Y Y Y Y Letra Y
90 Z Z Z Z Letra Z
91 [ corchete izquierdo
92 \ barra invertida
93 ] corchete derecho
94 ^ acento circunflejo
95 _ _ _ _ guión bajo
96 ` acento grave
97 a a a a letra a
98 b b b b letra b
99 c c c c letra c
100 d d d d letra d
101 e e e e letra e
102 f f f f letra f
103 g g g g letra g
104 h h h h letra h
105 i i i i letra i
106 j j j j letra j
107 k k k k letra k
108 l l l l letra l
109 m m m m letra m
110 n n n n letra n
111 o o o o letra o
112 p p p p letra p
113 q q q q letra q
114 r r r r letra r
115 s s s s letra s
116 t t t t letra t
117 u u u u letra u
118 v v v v letra v
119 w w w w letra w
120 x x x x letra x
121 y y y y letra y
122 z z z z letra z
123 { corchete izquierdo
124 | barra vertical
125 } corchete derecho
126 ~ tilde






Publicar un comentario

0 Comentarios