La compresión de datos es un proceso en el que se reduce el tamaño de un archivo mediante la recodificación de los datos del archivo para utilizar menos bits de almacenamiento que el archivo original. Un componente fundamental de la compresión de datos es que el archivo original puede transferirse o almacenarse, volver a crearse y utilizarse más tarde (con un proceso llamado descompresión).
Una breve historia de la compresión de datos
Cuando surgió Internet en la década de 1970, la relación entre el tamaño de los archivos y la velocidad de transferencia se hizo mucho más evidente. Matemáticos de todo el mundo se ocuparon del problema durante años, pero no fue hasta que los algoritmos de compresión universal sin pérdidas Lempel-Ziv-Welch (LZW) entraron en escena a mediados de la década de 1980 que se obtuvieron beneficios reales. La compresión LZW fue el primer método de compresión de datos ampliamente utilizado en los ordenadores y todavía se utiliza hoy en día (en varias iteraciones): un archivo de texto inglés de gran tamaño se puede comprimir normalmente a la mitad de su tamaño original con LZW.
El código Morse, inventado en 1838, es el primer caso de compresión de datos en el que las letras más comunes del idioma inglés, como la «e» y la «t», reciben códigos Morse más cortos.
Los algoritmos de compresión de datos más comunes son:
- Zip
- bzip2
- 7-zip
- jpeg
- mpeg
Tipos de compresión de datos
Hoy en día, existen muchos tipos de algoritmos e implementaciones que permiten al usuario cotidiano comprimir archivos, pero algunos son más adecuados para determinadas aplicaciones. Para entender mejor la compresión de datos en general, lo más fácil es dividir el proceso en dos grupos principales: la compresión con pérdidas y la compresión sin pérdidas.
La compresión con pérdidas reduce el tamaño del archivo eliminando los bits de información innecesarios. Este tipo de compresión se utiliza más comúnmente en archivos de imagen, vídeo y audio, donde no se requiere una representación perfecta de los medios de origen.
Por ejemplo, un archivo de audio MP3 no contiene toda la información de audio de la grabación original. En cambio, la compresión con pérdida de MP3 elimina los sonidos que los humanos no pueden oír. Como el oído humano medio no notaría esta diferencia, el resultado es un archivo más pequeño con un impacto mínimo para el usuario.
¿El inconveniente? Cuanto más se comprima un archivo con compresión con pérdidas, más se notará la reducción de la calidad. Además, la compresión con pérdidas no funciona bien con archivos en los que todos los datos son cruciales (por ejemplo, comprimir una hoja de cálculo daría resultados inutilizables).
Compresión sin pérdidas
La compresión sin pérdidas reduce el tamaño del archivo sin eliminar ningún bit de información. En cambio, este formato funciona eliminando las redundancias dentro de los datos para reducir el tamaño total del archivo. Con lossless, es posible reconstruir perfectamente el archivo original.
Por ejemplo, el formato de compresión sin pérdidas más común (ZIP) se suele utilizar para los archivos de programa en Windows, ya que conserva toda la información original. Al descomprimir el archivo (descomprimir) se obtiene un programa ejecutable que, de otro modo, sería inútil con lossy.
Los formatos sin pérdida más comunes son PNG para imágenes, FLAC para audio y ZIP. Los formatos sin pérdidas para vídeo son poco frecuentes, ya que los archivos de origen ocuparían cantidades ingentes de espacio.
Limitaciones de la compresión de datos
Es importante tener en cuenta que la compresión no es infinita. Comprimir un archivo en un ZIP puede reducir su tamaño, pero es imposible seguir comprimiendo el archivo más allá y reducir el tamaño a nada.
También es importante entender la relación entre los dos grupos de compresión de datos:
- Sí: Convertir archivos sin pérdida a archivos con pérdida
- Sí: Convertir un formato sin pérdida a otro formato sin pérdida está bien
- No: Convertir archivos con pérdidas a archivos sin pérdidas (los formatos con pérdidas arrojan datos; es imposible recuperar esos datos)
- No: convertir un formato con pérdidas a otro formato con pérdidas
Unas palabras finales sobre la compresión de datos
¿Cómo funciona la compresión de datos desde un punto de vista técnico? Bueno, los algoritmos reales que deciden qué datos se desechan (en los métodos con pérdidas) y cómo almacenar mejor los datos redundantes (en la compresión sin pérdidas) son extremadamente complicados. Esta visión general de la compresión de datos pretende servir como una visión general de alto nivel de los fundamentos y proporcionar el contexto de cómo aplicar estas prácticas en situaciones del mundo real.
Continuar leyendo
- SASE. Lo que es. Lo que no es.
- Los profesionales de TI de los bufetes de abogados siguen centrándose en los resultados tangibles del negocio en 2021
- Los 5 mejores posts del blog de NetMotion de 2020
- 451 Investigaciones sobre SASE, VPN, confianza cero y el futuro de la seguridad de la red
- Voces de NetMotion: lo que significa la diversidad para nosotros
- .