C / UTF-8 y Unicode

Anuncios

Bienvenidos sean a este post, vamos ma alla del ASCII.

Anuncios

En el post anterior no solo vimos que es un caracter sino como se relaciona con la tabla ASCII, y si bien este es muy util para trabajar de forma basica para el idioma ingles permitiendo almacenar informacion de forma muy eficiente pero que sucede con los otros lenguajes derivados del alfabeto romano? es decir que sucede con los idiomas español, frances, aleman y otros? Bueno para ellos debemos considerar otro metodo de codificacion de caracteres, Unicode.

Anuncios

Si catalogamos todos los caracteres e ideogramas del planeta Tierra, pasado y presente, desccubriremos que necesitaremos unos 1.112.064 de puntos de codigo para representarlos con valores unicos, el termino punto de codigo es utilizado en lugar de caracter porque no todas las posiciones en este enorme conjunto de codigo son caracteres, algunos son ideogramas, y para poder representar un conjunto de codigo (es similar a un conjunto de caracter pero mucho mas grande) necesitaremos valores de 2 bytes y 4 bytes para todos los puntos de codigo.

Anuncios

Unicode es un estandar industrial de codificacion que representa a todos los sistemas de escritura del mundo y consiste de:

UTF-8 (1 byte)
UTF-16 (2 bytes)
UTF-32 (4 bytes)

Anuncios

Y unos cuantos mas pero estos seran las mas vistos, a Unicode tambien se lo denomina como UCS (Conjunto de Caracteres Codificados Universal por sus siglas en ingles), mas alla de la cobertura enorme que nos provee Unicode, UTF-8 es el conjunto mas difundido a nivel mundial y a partir del 2009 se ha difundido en sistemas de cualquier tipo, a su vez este conjunto es capaz de utilizar de 1 a 4 bytes para poder representar el total de elementos que mencionamos anteriormente, pero su mejor atributo es la retroccompatibilidad con ASCII siendo este el principal motivo porque esta tan amplicamente difundido.

Anuncios

Si bien lso conjuntos de codigo UTF-16 y UTF-32 son utilizados, todos los caracteres en cada conjunto son representados por 2 bytes y 4 bytes respectivamente, la ventaja de UTF-8 sobre ellos es que provee un mecanismo para entremezclar puntos de codigo de 1, 2, 3 y 4 bytes, de esta forma solo se usaran los bytes del punto de codigo necesario lo cual nos ahorrara espacio en disco y memoria.

Anuncios

La idea principal es que dominemos ampliamente el ASCII antes que otros conjuntos muchos mas complejos, pero eso no quita que en el futuro podemos hablar sobre como trabajar con estos conjuntos de codigo, les dejo un par de links para que puedan ahondar en estos conjuntos:

UTF-8

https://es.wikipedia.org/wiki/UTF-8

Anuncios

UTF-16

https://es.wikipedia.org/wiki/UTF-16
https://es.sttmedia.com/unicode-utf16

Anuncios

UTF-32

https://en.wikipedia.org/wiki/UTF-32

Anuncios

Unicode

https://unicode-table.com/es/
https://es.wikipedia.org/wiki/Unicode

Anuncios

En resumen, hoy hemos visto que es Unicode, como se compone y para que se usa, tambien hemos mencionado porque uno de los conjuntos que lo compone, UTF-8, es el mas popular y porque debemos tenerrlo en el horizonte pero nos manejaremos principalmente con el conjuto ASCII, tambien les dejo algunos links para obtener mas informacion sobre estos temas, espero les haya sido de utilidad sigueme en tumblr, Twitter o Facebook para recibir una notificacion cada vez que subo un nuevo post en este blog, nos vemos en el proximo post.

Anuncios

Donación

Es para mantenimento del sitio, gracias!

$1.50

El blog de Tinchicus

Un blog para el programador