6 consejos para garantizar que la calidad de sus datos optimice el rendimiento de sus algoritmos

  • Gestión de información

Las empresas están comenzando a aprender que los algoritmos analíticos son tan buenos como los datos contra los que corren. Aquí hay algunas maneras de mejorar la calidad de los datos para obtener la mejor información posible.

​En su libro, Armas de Destrucción Matemática, Cathy O'Neill explicó cómo los grandes algoritmos de datos pueden arrojar resultados incorrectos si los datos contra los que se ejecutan no son de alta calidad.

¿Cómo se asegura de que la calidad de sus datos optimice el rendimiento de sus algoritmos y, en última instancia, la inteligencia que obtiene de ellos?

La clave se basa en la preparación de datos y la coincidencia de los casos de uso empresarial a los que desea aplicar sus algoritmos.

Aquí hay seis mejores prácticas para desarrollar datos y algoritmos de calidad:

1. Nivele sus algoritmos

Tienes que construir cuidadosamente el algoritmo para "encajar" en tu caso de negocio. Si usted es un proveedor de servicios de salud y desea identificar personas en su área de servicio con alto riesgo de problemas cardíacos, puede construir un algoritmo que pregunte: "¿Quién mayor de 65 años ya ha tenido un procedimiento cardíaco?" en lugar de simplemente, "¿Quién es mayor de 65 años?"

2. Estandarice sus datos

Es probable que Thomas Gibson, Tom Gibson y T Gibson sean la misma persona si todos viven en la misma dirección. Para evitar obtener datos duplicados y sesgar los resultados de su análisis, el registro del Sr. Gibson debería estandarizarse para una sola ocurrencia de datos.

3. Repare los datos rotos

En algunos casos, los seres humanos necesitan involucrarse para corregir a mano los datos rotos antes de que los datos sean examinados por un algoritmo. Los datos rotos pueden consistir en un error de ortografía (por ejemplo, MN en lugar de ME para alguien que vive en Maine), o puede ser un error ortográfico del apellido de alguien que crea un registro adicional que no debe estar en un conjunto de datos. Cuanto mejor sea la precisión de sus datos, más precisos serán sus resultados de análisis.

4. Eliminar datos extraños

Si tu objetivo es vender el guante de un receptor a los jugadores profesionales de entre 18 y 35 años, es posible que no te interese cuál es el refresco favorito de un jugador, o un jugador que está en una liga de software amateur de fin de semana. Cuanto más pueda reducir sus datos a los límites del caso de uso específico que está examinando, más rápido podrá su algoritmo procesar los datos, y más probable será que el algoritmo le proporcione los conocimientos que está buscando.

5. Obtenga consenso de los usuarios

Nunca tome decisiones unilaterales sobre los datos que va a excluir sin antes consultar con los usuarios, ya que es posible que sepan algo que usted no sabe. Puede pensar que solo importa incluir datos para los padres de niños menores de cinco años cuando se trata de vender cierto juguete, pero ¿qué pasa si las tías solteras con sobrinas y sobrinos también son compradores?

6. Verificar los resultados

La tendencia con algoritmos y consultas de big data es revisarlos y volver a ejecutarlos según sea necesario, pero no necesariamente para registrar los resultados. En cambio, siempre se debe establecer y medir una línea de base para los resultados. Por ejemplo, si su primer algoritmo de datos le proporciona solo una tasa de respuesta del 3% de los compradores potenciales de un producto con un 1% de compra en última instancia, usted desea saber si la consulta supera a eso.

 

Descubre la innovación

Para asegurar el éxito empresarial, ahora y a futuro, es imprescindible maximizar el retorno de la inversión existente en software, a la vez que innovar y adoptar nuevas tecnologías. Los retos que hay abordar para competir en un mundo de TI Híbrida incluyen DevOps, Seguridad, Gestión de riesgos y Análisis predictivo. Puedes obtener más información sobre cómo abordar estos retos e innovar en este enlace.