¿Qué es la ingeniería de datos?
- Gestión de IT
Los ingenieros de datos son los diseñadores, constructores y gerentes de las tuberías de datos. Desarrollan la arquitectura, los procesos y son dueños del rendimiento y la calidad de los datos de la solución general.
Para ello, deben ser especialistas en la arquitectura de sistemas distribuidos y la creación de tuberías confiables, combinando fuentes de datos y construyendo y manteniendo almacenes de datos.
El papel ha evolucionado en los últimos años a medida que los ingenieros de software debían aprender más sobre datos y los ingenieros de bases de datos tradicionales debían aprender lenguajes de ingeniería de software a medida que las empresas se alejaban de las soluciones de almacén de la empresa para distribuir las tuberías de "big data".
Como tal, los ingenieros de datos requieren habilidades en una serie de disciplinas técnicas. Estos incluyen lenguajes de secuencias de comandos (como LINUX y Python), habilidades de programación orientada a objetos (particularmente Java y Scala) y, por supuesto, SQL y cómo la sintaxis varía entre las diferentes aplicaciones. También requiere una comprensión de los sistemas distribuidos, la ingestión de datos y los marcos de procesamiento y los motores de almacenamiento.
Los ingenieros de datos con experiencia tienen conocimiento de las fortalezas y debilidades de cada herramienta y para qué se utiliza mejor. También es necesario conocer los conceptos básicos de DevOps, especialmente cuando se deben instalar nuevas herramientas, realizar experimentos estadísticos e implementar el aprendizaje automático para científicos de datos.
A pesar de un conocimiento decente de las operaciones, los ingenieros de datos no son DevOps. No tienen el nivel profundo de comprensión de redes, VPC, subredes, lenguajes de seguridad e infraestructura. Además, a medida que más empresas buscan pasar a una estrategia de múltiples nubes, la complejidad de las estructuras de cuentas en la nube requiere un conocimiento especializado. También existe un requisito creciente para ayudar a los usuarios a navegar por las complejidades que se producen al usar múltiples herramientas de minería de datos.
Los analistas en el pasado nunca tuvieron que preocuparse acerca de cuán grande debe ser un clúster para asegurarse de que su consulta se complete en un tiempo razonable, ni tuvieron que interpretar un mensaje de falla de SQL que se lee como un error de tiempo de ejecución de Java. Los equipos de características de desarrollo a menudo no tienen tiempo para ayudar con esto, por lo que se requiere algo más.
Descubre la innovación
Para asegurar el éxito empresarial, ahora y a futuro, es imprescindible maximizar el retorno de la inversión existente en software, a la vez que innovar y adoptar nuevas tecnologías. Los retos que hay abordar para competir en un mundo de TI Híbrida incluyen DevOps, Seguridad, Gestión de riesgos y Análisis predictivo. Puedes obtener más información sobre cómo abordar estos retos e innovar en este enlace.