viernes, 11 de abril de 2008

Unicode (UTF-8) un estandar en crecimiento.

Unicode es un estándar industrial cuyo objetivo es proporcionar el medio por el cual un texto en cualquier forma e idioma pueda ser codificado para el uso informático. El establecimiento de Unicode ha involucrado un ambicioso proyecto para reemplazar los esquemas de codificación de caracteres existentes, muchos de los cuales están muy limitados en tamaño y son incompatibles con entornos multilingües. Unicode se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el más dominante en la internacionalización y adaptación local del software informático. El estándar ha sido implementado en un número considerable de tecnologías recientes, que incluyen XML, Java y sistemas operativos modernos.

Unicode cubre la mayor parte de las escrituras usadas actualmente, incluyendo:

  • Árabe
  • Armenio
  • Bengalí
  • Birmano
  • Braille
  • Sílabas aborígenes canadienses
  • Cheroqui
  • Copto
  • Cirílico
  • Devanāgarī
  • Esperanto
  • Ge'ez
  • Georgiano
  • Griego
  • Guyaratí
  • Gurmukhi
  • Hangul (Coreano)
  • Han (Kanji, Hanja y Hanzi)
  • Japonés (Kanji, Hiragana y Katakana)
  • Hebreo
  • Jemer (Camboyano)
  • Kannada (Canarés)
  • Lao
  • Latino
  • Malayalam
  • Mongol
  • Oriya
  • Syriac
  • Tailandés (Thai)
  • Tamil
  • Tibetano
  • Yi
  • Zhuyin (Bopomofo)

No hay planes inmediatos para incorporar jeroglíficos egipcios o escritura Maya. Unicode define dos métodos de "mapeo" o de localización de caracteres:
  • La codificación UTF (Unicode Transformation Format) Formato de Transformación Unicode.
  • La codificación UCS (Universal Character Set) Juego de Caracteres Universal.

Las codificaciones incluyen:
  • UTF-7 — una codificación relativamente poco popular de 7 bits, a menudo considerada obsoleta.
  • UTF-8 — una codificacón de 8 bits de longitud variable
  • UCS-2 — una codificación de 16 bits de longitud fija que solamente permite el "mapeo" o la búsqueda en la Plana Básica Multilengüe.
  • UTF-16 — una codificación de 16 bits de longitud variable.
  • UCS-4 y UTF-32 — un par de codificaciones de 32 bits de longitud fija que son funcionalmente idénticas.
  • UTF-EBCDIC — una codificación poco difundida creada para sistemas basados en EBCDIC.

Los números en los nombres de los códigos indican la cantidad de bits de cada carácter (para las codificaciones UTF) o el número de bytes por carácter (para las UCS).
UTF-8 utiliza de uno hasta 4 bytes por cada punto de código y, siendo relativamente compacto (para la escritura basada en caracteres latinos) y compatible con ASCII. Proporciona la codificación estándar para el intercambio de texto en Unicode. También es utilizado por las más recientes versiones de Linux como reemplazo a la herencia de códigos en el manejo de textos en general.