Las empresas deben vincular la gestión de documentos en sus estrategias de big data

  • Modernización de apps

VAST Data

Muchas implementaciones de big data están dejando atrás los sistemas de gestión de documentos, pero los sistemas de gestión de documentos albergan grandes almacenes de datos no estructurados. ¿Deberían los analistas de datos pensar de nuevo?

Los primeros sistemas de gestión de documentos (DMS) aparecieron en la década de 1980. Fueron más allá de los archivadores físicos y el almacenamiento de servidores de PC y aparecieron en redes donde varias personas y departamentos dentro de una sola empresa podían obtener acceso a una gran cantidad de documentos en formato electrónico.

Desde entonces, los sistemas de gestión de documentos han sido los principales motores de los esfuerzos de digitalización de las empresas. Estos sistemas escanean, indexan, almacenan, recuperan y transforman documentos. Han sido fundamentales para sacar documentos e imágenes en papel de archivadores y salas de almacenamiento a redes ampliamente distribuidas que todo el mundo usa.

La pregunta es: ¿Las empresas están vinculando la gestión documental con sus estrategias de big data? En muchos casos, las empresas se están quedando atrás.

Los grandes repositorios de datos que se están construyendo combinan sistemas de datos de registro con datos entrantes de Internet de las cosas y fuentes externas que no están estructuradas. Los sistemas de gestión de documentos se utilizan en este proceso, pero no hay necesariamente un esfuerzo concertado en las estrategias de big data para maximizar todos los datos en un DMS.

Del lado del DMS, los usuarios buscan datos, los digitalizan y los organizan, pero otras tecnologías de big data, como la limpieza y normalización de datos, la inteligencia artificial, el aprendizaje automático y el desarrollo de algoritmos más avanzados, aún no se utilizan ampliamente.

Por supuesto, hay excepciones de nicho. Una de estas excepciones es el proceso de descubrimiento legal que analiza montones de documentos que a menudo se encuentran en los sistemas de administración de documentos corporativos. El objetivo de un software de descubrimiento legal es analizar documentos no estructurados y usar inteligencia artificial y aprendizaje automático para determinar qué documentos (de miles) son más relevantes para un posible caso legal próximo y cuáles no.

En este caso, no hay argumentos corporativos prolongados sobre si es necesario importar documentos a un repositorio de big data desde un DMS. El caso de uso se sostiene por sí mismo.

Sin embargo, en otros casos, es posible que no exista una razón convincente para combinar un DMS con un repositorio de big data. Por ejemplo, ¿un experimento de secuenciación del genoma realmente se basa en lo que normalmente incluiría un 

La conclusión no es realmente si se necesita un DMS para un repositorio de big data, sino simplemente que se debe considerar. El DMS a menudo se convierte en un valor atípico para la estrategia de big data porque los científicos de datos y los analistas de datos de TI tienden a pasarlo por alto.

¿Qué deben hacer las empresas para asegurarse de que sus sistemas DMS se incluyan como posibles fuentes de información que fluya hacia un repositorio de big data? Aquí hay cuatro pasos.

  • Documente los tipos de datos que se encuentran en el DMS para que puedan evaluarse para su inclusión en repositorios de big data.
  • Verifique que los sistemas DMS que utiliza la empresa tengan un conjunto completo de API (interfaces de programación de aplicaciones) que facilitan las transferencias de datos a grandes repositorios de datos.
  • Desarrolle una metodología estándar de extracción, transformación y carga que pueda tomar datos entrantes de un DMS y prepararlos para su uso en un repositorio de big data.
  • Determinar los resultados salientes del análisis de big data que deben exportarse a los sistemas DMS para el acceso de los usuarios.

Descubre la innovación

Para asegurar el éxito empresarial, ahora y a futuro, es imprescindible maximizar el retorno de la inversión existente en software, a la vez que innovar y adoptar nuevas tecnologías. Los retos que hay abordar para competir en un mundo de TI Híbrida incluyen DevOps, Seguridad, Gestión de riesgos y Análisis predictivo. Puedes obtener más información sobre cómo abordar estos retos e innovar en este enlace.