Base64: la codificación más útil en criptografía.

Base64 Table
El día de hoy les comentaré de una codificación, en ocasiones un poco olvidada, pero que puede llegar a ser de gran ayuda al momento de transportar datos por Internet; la llamada Base64.

Una codificación es utilizada cuando deseamos representar ciertos datos en un formato distinto al que se encuentran, se dice que los datos se codifican en otro formato. Las codificaciones más conocidas son ASCII, UTF-8, ISO-8859-1, Windows 1252, entre otras.
Base64 es una codificación como cualquiera de las anteriores sin embargo posée una característica interesante: tiene la capacidad de convertir cualquier dato definido a nivel de bytes en un formato seguro de transportar por Internet como lo son los caracteres ASCII. Esto significa que cualquier archivo ya sea, de texto plano o archivo ejecutable, archivo binario, etc. puede transportarse por Internet sin perder su “escencia”.

Por ejemplo, por definición el protocolo SMTP, utilizado para envío de correos electrónicos, antes de enviar un correo electrónico a un buzón verifica si contiene archivos adjuntos el correo que deseamos enviar. Si es así entonces el archivo adjunto lo codifica en Base64 y lo concatena al contenido del mensaje junto con sus cabeceras e información extra. Al final el mensaje termina siendo exclusivamente texto plano fácil de interpretar que viaja por Internet hasta llegar al buzón destino, donde posteriormente es decodificado y mostrado en el formato que conocemos (un e-mail con un archivo adjunto).

No entraré en detalles en la forma de trabajo de la codificación debido a que una simple búsqueda resolvería ese tema lo que sí comentaré es cómo identificarla rápidamente, sus usos y cómo se compone.

Composición:
Así como la numeración binaria o base 2 utiliza dos símbolos para representarse (0, 1), la numeración decimal o base 10 utiliza 10 símbolos para representarse (0, 1, 2, 3, …, 9), la codificación Base64 utiliza 64 símbolos para representarse:

ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/

Esta códificación utiliza un último caracter (el No. 65) pero solo como relleno y, en caso de usarse, va posicionado al final del mensaje codificado: el caracter ” = “.

Estos símbolos mostrados son parte del “alfabeto” ASCII (por no decirle codificación) y son soportados de forma íntegra por los sistemas de hoy en día así que son seguros de eviar por Internet entre diversas tecnologías cliente, servidor, sockets, URLs, etc. Se dice seguros porque no cambiará ningún símbolo en el trayecto preservando su integridad y, por consecuencia, al momento de decodificar ese texto, igual en Base64, obtendremos los bytes originales íntegros.

Identificación:
La forma más sencilla de indentificar texto codificado en Base64 es observando los caracteres dentro de él. Si encontramos, por ejemplo, símbolos de “=” al final de la cadena es casi un hecho que son datos codificado en Base64: aHR0cDovL2FsYmVydHgubXgvYmxvZw==
Conociendo los caracteres que se utilizan para codificar nos permite identificarlo observando símbolos de “+”, “/”, caracteres en mayúsculas, minúsculas y numéricos dentro de la cadena.

Usos:
Base64 se utiliza en diversos medios y protocolos volviéndose un estándar al momento de querer transportar principalmente datos que no son texto (archivos, bytes cifrados, etc.) debido a que tenemos otras formas de transportar el texto por las redes.

  • La autenticación Basic del protocolo HTTP utiliza Base64 para el envío de credenciales (por cierto uno de los métodos de autenticación más inseguros que existen hoy en día en Internet).
  • El protocolo SMTP, que mencioné anteriormente, también utiliza Base64 para adjuntar archivos y que lleguen de forma íntegra.
  • En criptografía se utiliza después de haber cifrado información por algún medio y querer transportar cifrada esa información por las redes para, una vez que llega a su destino, descifrarla y obtener el dato original.
  • entre otros…

Es importante notar que el codificar información en Base64 no significa que estés protegiendo la información, cifrándola o asegurándola de alguna forma ya que la codificación es simplemente una forma alterna de mostrar los datos y cada codificación tiene su respectivo modo de decodificar que no utiliza llaves, ni algoritmos complejos por lo que el dato original se obtendrá fácilmente. De hecho el codificar en Base64 no debe ser visto como método para proteger la información sino como método para transportarla.

Puedes utilizar el Cheat Sheet de OpenSSL publicado en este sitio para practicar y utilizar esta codificación.