Científicos y analistas de datos: parecidos y diferencias

Gestión de información

12 NOV 2021

Las organizaciones pueden obtener más valor de sus datos si los científicos de datos y los analistas de datos de TI trabajan juntos; esto incluye compartir esos datos.

Los científicos de datos provienen de un mundo de investigación e hipótesis. Desarrollan consultas en forma de algoritmos de big data que pueden volverse bastante complejos y que pueden no producir resultados hasta después de numerosas iteraciones. Sus contrapartes naturales en TI, los analistas de datos, provienen de un mundo diferente de trabajo con datos altamente estructurados. Los analistas de datos están acostumbrados a consultar datos de bases de datos estructuradas y ven los resultados de sus consultas rápidamente.

Los conflictos comprensibles surgen cuando los científicos de datos y los analistas de datos intentan trabajar juntos, porque sus estilos de trabajo y expectativas pueden ser bastante diferentes. Estas diferencias en expectativas y metodologías pueden incluso extenderse a los datos en sí. Cuando esto sucede, la arquitectura de datos de TI se ve desafiada.

Hay muchas diferencias históricas entre los científicos de datos y los ingenieros de datos de TI. Las dos diferencias principales son que los científicos de datos tienden a usar archivos, que a menudo contienen datos semiestructurados generados por máquinas, y necesitan responder a los cambios en los esquemas de datos con frecuencia. Los ingenieros de datos trabajan con datos estructurados con un objetivo en mente (p. Ej., Un esquema en estrella del almacén de datos).

Desde un punto de vista arquitectónico, lo que esto ha significado para los administradores de bases de datos es que los datos para los científicos de datos deben establecerse en lagos de datos orientados a archivos, mientras que los datos para los analistas de datos de TI deben clasificarse en almacenes de datos que utilizan bases de datos estructuradas tradicionales y, a menudo, patentadas.

Mantener almacenes de datos patentados para las cargas de trabajo de inteligencia empresarial (BI) que utilizan los analistas de datos y lagos de datos separados para las cargas de trabajo de ciencia de datos y aprendizaje automático ha generado una arquitectura complicada y costosa que ralentiza la capacidad de obtener valor de los datos y complica la gobernanza de los datos. El análisis de datos, la ciencia de datos y el aprendizaje automático tienen que seguir convergiendo y, como resultado, creemos que los días de mantener tanto los almacenes de datos como los lagos de datos están contados.

Sin duda, esta sería una buena noticia para los administradores de bases de datos, que agradecerían la perspectiva de tener que mantener un conjunto de datos que todas las partes puedan utilizar. Además, eliminar diferentes silos de datos y hacerlos converger también podría contribuir en gran medida a eliminar los silos de trabajo entre los grupos de ciencia de datos y TI, fomentando una mejor coordinación y colaboración.