Actualidad, Glosario, Tecnología

Almacenamiento en la nube: qué es el ‘data lake’, el ‘almacén de datos’ y los ‘data marts’

datos

Los datos se han convertido en el bien más valioso de las organizaciones. Esto hace que su gestión y protección sean clave. En este escenario, el almacenamiento en la nube experimenta un notable crecimiento que posibilita que las empresas puedan acceder a archivos y documentos desde casi cualquier lugar en cualquier momento.

No obstante, existen varios tipos diferentes de soluciones de almacenamiento de datos basadas en la nube, y elegir la correcta es fundamental para garantizar su seguridad.

Hay tres tipos principales de repositorios de datos basados en la nube: ‘data lake’, almacenamiento de datos y ‘data mart’. Cada uno tiene sus propias fortalezas y debilidades, por lo que es de vital importancia elegir una solución que se ajuste a las necesidades específicas de cada negocio.

‘Data Lake’, un mar de datos

Por ‘data lake’ se entiende, generalmente, el tipo más básico de almacenamiento en la nube disponible. Este tipo de repositorio permite almacenar cantidades masivas de datos sin estructurar ni procesar. Al igual que el agua que fluye de un río a un lago, los datos fluyen desde una o más fuentes hacia el lago de datos, que puede contener muchos otros datos dentro de sus profundidades. Es posible que los datos no estén ordenados, pero todos pueden estar contenidos dentro del lago.

Según IBM, los ‘data lake’ son útiles para las organizaciones que necesitan disponer y almacenar cantidades masivas de información de múltiples fuentes. Actualmente se utilizan para albergar grandes cantidades de datos sin procesar que se usan para entrenar modelos de aprendizaje automático como ChatGPT.

Sectores como el energético, hacen uso de estos ‘data lakes’ para analizar grandes cantidades de datos y así optimizar la producción de energía; mientras que el de la salud analiza los datos de pacientes y medicamentos para predecir los costes y diagnósticos de la atención médica.

Las organizaciones  almacenan datos en los ‘data lakes’ si no han decidido cuál es la mejor manera de utilizarlos y necesitan un lugar para guardarlos

Las organizaciones también almacenan datos en estos ‘lagos’ si no han decidido cuál es la mejor manera de utilizarlos y necesitan un lugar para guardarlos. Ante la dificultad de ejecutar análisis en estos datos almacenados en un ‘data lake’, será clave elegir al mejor proveedor para poder mover información sin problemas entre el repositorio y una plataforma de análisis dedicada.

Almacenes de datos para una mejor toma de decisiones

A diferencia de los ‘data lake’, los almacenes de datos, o ‘data warehouse’, están diseñados específicamente para generar informes y analizar datos estructurados.

Esto se consigue a través de un proceso llamado ETL (Extract, Transform and Load), que implica extraer, transformar y cargar. Es decir, en primer lugar, los datos se extraen de su fuente original y luego se transforman automáticamente para ajustarse a los parámetros del almacén de datos.

Esto requiere limpiar los datos, combinar aquellos de diferentes fuentes y convertirlos a formatos estandarizados. Finalmente, esos datos se cargan en el almacén y se organizan en su ubicación asignada.

Los almacenes de datos tienen una amplia variedad de casos de uso empresarial en todos los sectores que dependen de decisiones basadas en datos. Por ejemplo, las tiendas del retail utilizan almacenes de datos para guardar y analizar las ventas, el inventario y los datos de los clientes. A través de este análisis, las tiendas pueden tomar mejores decisiones sobre el precio de los artículos y la gestión del inventario.

Otras empresas que utilizan almacenes de datos son las instituciones financieras, que almacenan y analizan datos de clientes y transacciones financieras para identificar patrones que puedan ayudar a establecer mejores estrategias de gestión de riesgos.

 

almacenamiento definido por software

La especificidad de los ‘data marts’

Técnicamente, un ‘data mart’ en realidad está contenido dentro de un almacén de datos más grande y está destinado a cumplir funciones de negocio muy específicas. Mientras que un almacén o ‘data lake’ normalmente contiene todos los datos de una empresa, un ‘data mart’ contiene solo los datos relevantes para su función específica.

Las empresas que utilizan ‘data marts’ generalmente buscan analizar un conjunto de datos muy centrado en un corto período de tiempo. Según IBM, los departamentos de marketing de las empresas más grandes suelen utilizarlos para rastrear y analizar datos relacionados con el rendimiento de las campañas, incluidas las tasas de conversión y el ROI, a fin de comprender mejor qué se puede mejorar para futuras campañas.

Los ‘data marts’, además de ser más rápidos y estar más enfocados a datos concretos, tienden a ser menos costosos de mantener

Además de ser más rápidos y estar más enfocados a datos concretos, los ‘data marts’ también tienden a ser menos costosos de mantener, sobre todo debido a su tamaño reducido en comparación con otras opciones. Además, también son más seguros ya que el acceso se puede restringir solo a las personas de la empresa que trabajan con esos datos específicos.

‘Data harbour’, o puerto de datos

Junto a estas opciones vistas hasta ahora, también existen varios tipos de almacenamiento alternativos que ofrecen servicios similares o mejoran las capacidades de los repositorios de datos existentes.

La firma Calamu se anuncia a sí misma como el primer proveedor de un nuevo tipo de solución de almacenamiento denominado ‘data harbour’, o puerto de datos. Según su fundador y CEO, Paul Lewis, funciona como una capa adicional de seguridad para proteger su información más confidencial.

Los datos almacenados en el este ‘puerto de datos’ se fragmentan en varias partes, se dispersan en varios repositorios y luego se vuelven a cifrar. Si un intruso no autorizado intenta acceder a ellos, se queda solo con una colección de números sin sentido.

De esta manera, si alguien no autorizado accede a un repositorio, solo obtendrá una parte de los datos que no tienen sentido por sí solos. Sin embargo, cuando se trata de un acceso autorizado, Calamu puede volver a unir esas piezas para que cobren sentido.


Imagen inicial | Dallas Reedy

 

Artículo AnteriorSiguiente Artículo
Periodista especializada en tecnología e innovación con más de dos décadas de experiencia cubriendo la información del canal TI