Cumplir con la regulación de privacidad, más fácil con una estrategia de datos limpios

Seguridad Inteligente

12 SEP 2019

Para muchos, mantener datos limpios a veces puede parecer una tarea rutinaria pero los pasos involucrados deberían provocar discusiones muy necesarias sobre cómo proteger mejor la privacidad de los datos que se recopilan.

¿Cómo se puede abordar una estrategia de datos limpios de una manera que ayude a las organizaciones en sus esfuerzos de privacidad de datos? La clave es considerar tres aspectos críticos que definen datos limpios en un modelo avanzado y, en consecuencia, definen las actividades necesarias.

Los datos limpios son identificables

Cuando mira una tabla de datos, entiende qué datos pueblan los campos y qué valores deberían decir. Su comprensión se basará en el tema en el que se están aplicando los datos e impulsará el grado de alfabetización de datos necesaria para limpiar adecuadamente los datos.

Clean data organiza los datos en un formato previsto

Los datos deben organizarse de manera que permitan su uso en un modelo de datos, sin importar si los campos de datos aparecen en un archivo .csv o en bases de datos SQL. El formato aplicado a cada campo debe reflejar el formato que desea para los modelos que pretende construir.

Los datos limpios no tienen detalles negativos evidentes

Obvio puede ser un término subjetivo, porque confía en lo que es obvio para el profesional que realiza el limpiado de datos. Pero ese profesional debe detectar registros en sus datos que sean inexactos, irrelevantes o incompletos. Estos registros deben ser reparados o eliminados.

Un enfoque holístico para las prácticas de datos del cliente

La limpieza de los datos para el aprendizaje automático proporciona un valor obvio para una organización. Lo que puede no ser tan obvio es cuánto se relaciona cualquier discusión de datos limpios con el tema de la protección de la privacidad. Muchas medidas de cumplimiento, desde GDPR hasta la próxima legislación en los EE.UU., requieren la identificación de un procesador y controlador de datos. Estos son los equipos responsables de identificar el impacto del uso de datos dentro de una organización, como la retención de datos, declarar el propósito de la recopilación de datos y la documentación de los procesos asociados.

Por lo tanto, muchos aspectos de esta lista de verificación de datos limpios encajan con los requisitos de cumplimiento de privacidad. Si un analista decide qué es identificable, puede ser útil determinar qué elementos identificables se relacionan con la Información de identificación personal (PII). La discusión sobre el formato previsto puede revelar cómo los datos podrían combinarse potencialmente para revelar la identidad de alguien en una violación de datos, lo que aclara qué campos de datos son críticos para la protección de la identidad.

Descubre la innovación