Sitio no oficial del Lugro: Unicode (UTF-8) un estandar en crecimiento.

viernes, 11 de abril de 2008

Unicode (UTF-8) un estandar en crecimiento.

Unicode es un estándar industrial cuyo objetivo es proporcionar el medio por el cual un texto en cualquier forma e idioma pueda ser codificado para el uso informático. El establecimiento de Unicode ha involucrado un ambicioso proyecto para reemplazar los esquemas de codificación de caracteres existentes, muchos de los cuales están muy limitados en tamaño y son incompatibles con entornos multilingües. Unicode se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el más dominante en la internacionalización y adaptación local del software informático. El estándar ha sido implementado en un número considerable de tecnologías recientes, que incluyen XML, Java y sistemas operativos modernos.

Unicode cubre la mayor parte de las escrituras usadas actualmente, incluyendo:

Árabe
Armenio
Bengalí
Birmano
Braille
Sílabas aborígenes canadienses
Cheroqui
Copto
Cirílico
Devanāgarī
Esperanto
Ge'ez
Georgiano
Griego
Guyaratí
Gurmukhi
Hangul (Coreano)
Han (Kanji, Hanja y Hanzi)
Japonés (Kanji, Hiragana y Katakana)
Hebreo
Jemer (Camboyano)
Kannada (Canarés)
Lao
Latino
Malayalam
Mongol
Oriya
Syriac
Tailandés (Thai)
Tamil
Tibetano
Yi
Zhuyin (Bopomofo)

No hay planes inmediatos para incorporar jeroglíficos egipcios o escritura Maya. Unicode define dos métodos de "mapeo" o de localización de caracteres:

La codificación UTF (Unicode Transformation Format) Formato de Transformación Unicode.
La codificación UCS (Universal Character Set) Juego de Caracteres Universal.

Las codificaciones incluyen:

UTF-7 — una codificación relativamente poco popular de 7 bits, a menudo considerada obsoleta.
UTF-8 — una codificacón de 8 bits de longitud variable
UCS-2 — una codificación de 16 bits de longitud fija que solamente permite el "mapeo" o la búsqueda en la Plana Básica Multilengüe.
UTF-16 — una codificación de 16 bits de longitud variable.
UCS-4 y UTF-32 — un par de codificaciones de 32 bits de longitud fija que son funcionalmente idénticas.
UTF-EBCDIC — una codificación poco difundida creada para sistemas basados en EBCDIC.

Los números en los nombres de los códigos indican la cantidad de bits de cada carácter (para las codificaciones UTF) o el número de bytes por carácter (para las UCS).
UTF-8 utiliza de uno hasta 4 bytes por cada punto de código y, siendo relativamente compacto (para la escritura basada en caracteres latinos) y compatible con ASCII. Proporciona la codificación estándar para el intercambio de texto en Unicode. También es utilizado por las más recientes versiones de Linux como reemplazo a la herencia de códigos en el manejo de textos en general.

No hay comentarios:

Publicar un comentario