Contenido empresarial en la arquitectura de Data Lake

  • Security and Risk Management

HPE Greenlake Central

Un lago de datos no es un producto tecnológico que se adquiere; es una arquitectura o enfoque para almacenar y organizar datos. Puede tener un lago de datos o varios, según la organización. Puede ser en la nube, local o híbrido.

Alguien preguntó recientemente si deberían obtener un almacén de datos o un lago de datos. Estas dos ideas son complementarias, no una elección de una u otra. El lago de datos contiene datos en su forma pura, mientras que los almacenes de datos almacenan datos procesados, limpios y estructurados.

El contenido o los datos no estructurados generalmente ingresan al lago de datos sin un modelo para estructurar el contenido y sin metadatos para describirlo. Los datos no son consistentes, estandarizados o confiables. Para que los motores de búsqueda puedan buscar el contenido y las aplicaciones de análisis extraigan información de él, es posible que la arquitectura deba complementar el lago de datos con servicios que simplifiquen la ingestión de contenido en el lago de datos y etiqueten el contenido con metadatos.

Los lagos de datos proporcionan un flujo de datos rápido, sin necesidad de un modelo para perfilar qué es y qué tan importante es. Por lo tanto, los lagos de datos pueden fomentar un enfoque de "conservar todo" para administrar el contenido a lo largo de su ciclo de vida. Pero esto deja de ser un lago y se convierte más en un vertedero de datos.

Las organizaciones no deben ni pueden controlar todos sus datos. Deben clasificar, etiquetar y luego manejar adecuadamente los documentos críticos y ordenar el contenido no crítico del espacio activo.

Incluso los registros críticos no deben conservarse para siempre como estrategia de retención predeterminada. Si esos registros no se eliminan al final de su período de retención, la empresa se expone a un riesgo legal real. ¿Cómo encontrarán usted o un flujo de trabajo los registros para su disposición si no están etiquetados? ¿Cómo saber si está exponiendo información privada a usuarios sin acceso autorizado si no sabe qué hay allí?

No trate los lagos de datos como un vórtice al que arroja todo para siempre y espera lo mejor. Hay tanto valor encerrado en esos datos y es poco probable que se vuelva a encontrar una vez que sea un goteo en el lago.

Examine el tipo de datos que se ingieren en el lago de datos. ¿Es algo que necesitamos solo por un período limitado de tiempo, es decir, lecturas en un momento determinado, o es algo que contará historias a los tomadores de decisiones? ¿Vale la pena el coste de obtener datos de todos esos lugares diversos y mantenerlos?

Descubre la innovación

Para asegurar el éxito empresarial, ahora y a futuro, es imprescindible maximizar el retorno de la inversión existente en software, a la vez que innovar y adoptar nuevas tecnologías. Los retos que hay abordar para competir en un mundo de TI Híbrida incluyen DevOps, Seguridad, Gestión de riesgos y Análisis predictivo. Puedes obtener más información sobre cómo abordar estos retos e innovar en este enlace.