Desarrollando una estrategia de datos
- Gestión de información
La estrategia de datos describe el proceso mediante el cual los datos se organizan, estructuran y comparten para que los datos puedan utilizarse en modelos de aprendizaje automático.
La estrategia de datos es el paso crucial que alimenta la capacidad de construir modelos efectivos de aprendizaje automático. La estrategia de datos implica cómo se almacenan y actualizan los datos, el gobierno de los datos, la seguridad y el uso posterior de los resultados.
Por ejemplo, si los datos explicativos tienen valores faltantes, entradas múltiples o se almacenan en sistemas dispares, las eficiencias obtenidas a través de los modelos ML pueden verse obstaculizadas o perdidas porque la información no está completa o es difícil de combinar y usar de manera efectiva. Además, los datos pueden actualizarse en un sistema sin actualizarse en el otro, lo que lleva a resultados diferentes según la fuente de datos utilizada. Todos estos problemas se exacerban cuando se usan datos para tareas más complicadas, como el análisis predictivo con modelos de aprendizaje automático.
Al implementar procesos basados en datos como los modelos de aprendizaje automático y los informes basados en análisis (es decir, paneles, etc.), las organizaciones podrán resaltar las lagunas en sus datos y descubrir dónde necesitan realizar mejoras. Al revisar manualmente los procesos automatizados y los resultados estadísticos, las organizaciones estarán mejor preparadas para identificar datos óptimos y reducir su dependencia de datos de baja calidad.
Los métodos para calificar la calidad de los conjuntos de datos y los registros individuales están en proceso de implementación. En los próximos años, esperamos que las organizaciones tengan la capacidad de dar cuenta de la calidad de cada registro en los modelos estadísticos, mitigando efectivamente el efecto negativo de los datos de baja calidad en los resultados.
La gestión de datos aumentada debe combinarse con buenas prácticas de gobernanza de datos, y las aplicaciones en el punto de entrada de datos deben hacer cumplir las reglas de integridad de datos según lo dictado por los sistemas posteriores. Desafortunadamente, esto no sucede a menudo, ya que los propietarios de las aplicaciones a menudo tienen prioridades en competencia con los administradores de datos y las buenas reglas de gobernanza de datos a menudo no llegan a los puntos de entrada. Sin embargo, la gestión de datos aumentada ayudará a los administradores de datos a identificar más fácilmente los datos incorrectos y proporcionará recomendaciones inteligentes sobre cuál es la respuesta correcta.
Es un largo camino hacia un buen gobierno de datos y datos limpios, pero las herramientas de gestión de datos aumentadas serán herramientas muy importantes para alcanzar el santo grial de datos limpios y completos.
Descubre la innovación
Para asegurar el éxito empresarial, ahora y a futuro, es imprescindible maximizar el retorno de la inversión existente en software, a la vez que innovar y adoptar nuevas tecnologías. Los retos que hay abordar para competir en un mundo de TI Híbrida incluyen DevOps, Seguridad, Gestión de riesgos y Análisis predictivo. Puedes obtener más información sobre cómo abordar estos retos e innovar en este enlace.