4 pasos para depurar macrodatos de lagos de datos no estructurados

Gestión de información

04 NOV 2021

Las reglas de depuración de datos se han establecido desde hace mucho tiempo para las bases de datos y los datos estructurados. ¿Podemos hacer lo mismo con el big data?

La depuración de datos es una operación que se realiza periódicamente para garantizar que los registros inexactos, obsoletos o duplicados se eliminen de una base de datos. La depuración de datos es fundamental para mantener la buena salud de los datos, pero también debe cumplir con las reglas comerciales que los usuarios comerciales y de TI acuerden mutuamente (por ejemplo, ¿en qué fecha se debe considerar obsoleto y prescindible cada tipo de registro de datos?).

Sin embargo, cuando se trata de big data o no estructurados, las decisiones y los procedimientos de depuración de datos se vuelven mucho más complejos. Esto se debe a que se almacenan muchos tipos de datos.

Abrumados por la complejidad de tomar decisiones acertadas de purga de datos para lagos de datos con datos no alterados, muchos departamentos de TI han optado por apostar. Simplemente mantienen todos sus datos no estructurados durante un período de tiempo indeterminado, lo que aumenta sus costos de almacenamiento y mantenimiento de datos en las instalaciones y en la nube.

A continuación, se incluyen cuatro pasos para depurar sus macrodatos.

1. Ejecute periódicamente operaciones de limpieza de datos en su lago de datos

Esto puede ser tan simple como eliminar cualquier espacio entre la ejecución de datos basados ??en texto que puedan haberse originado en las redes sociales. Esto se conoce como función de "recorte" de datos porque está recortando espacios adicionales e innecesarios para destilar los datos en su forma más compacta. Una vez que se realiza la operación de recorte, es más fácil encontrar y eliminar datos duplicados.

2. Busque archivos de imagen duplicados

Las imágenes como fotos, informes, etc., se almacenan en archivos y no en bases de datos. Estos archivos se pueden comparar de forma cruzada convirtiendo cada imagen de archivo en un formato numérico y luego haciendo una verificación cruzada entre las imágenes. Si hay una coincidencia exacta entre los valores numéricos de los respectivos contenidos de dos archivos de imagen, entonces hay un archivo duplicado que se puede eliminar.

3. Utilice técnicas de limpieza de datos diseñadas específicamente para macrodatos

Un repositorio de lago de datos puede almacenar muchos tipos diferentes de datos y formatos estructurados y no estructurados sin longitudes de registro fijas. Existen herramientas que se pueden usar para eliminar duplicados en los repositorios de almacenamiento de Hadoop y formas de monitorear los datos entrantes que se están ingiriendo en el repositorio de datos para garantizar que no se produzca una duplicación total o parcial de los datos existentes. Los administradores de datos pueden utilizar estas herramientas para garantizar la integridad de sus lagos de datos.

4. Revisar las políticas de gobierno y retención de datos con regularidad

Los requisitos comerciales y normativos para los datos cambian constantemente. TI debe reunirse al menos una vez al año con sus auditores externos y con el negocio final para identificar cuáles son estos cambios, cómo afectan los datos y qué efecto podrían tener estas reglas cambiantes en las políticas de retención de big data.