automatizacion

¿La automatización eliminará la ciencia de datos?

Ianhui Michael Li es el fundador de The Data Incubator, conocido por su beca de ocho semanas que ayuda a los doctorados y posdoctorados en la transición de la academia a la industria. Antes de eso, fue jefe de monetización y ciencia de datos en Foursquare, con experiencia laboral en Google, Andreessen Horowitz, JPMorgan y DEShaw.

“¿La automatización eliminará la ciencia de datos?”

Esta es una pregunta que se hace casi todas las veces en las conferencias a las que asiste. Por lo general, son los dos grupos que se preocupan por este tema los que suelen hacer preguntas. El primer grupo son los profesionales activos, o candidatos, que están preocupados por las perspectivas laborales futuras. El otro grupo está formado por ejecutivos y gerentes que acaban de comenzar a trabajar en ciencia de datos.

Cuando escuchan que Target puede determinar si una clienta está embarazada a partir de los patrones de compra , se preguntan si tienen una herramienta tan poderosa que también se pueda aplicar a sus datos. Y escuchamos a los proveedores de IA de automatización afirmar en sus últimas presentaciones de ventas que pueden hacer lo mismo (o incluso más) que Target hizo sin ciencia de datos. En respuesta a sus preguntas, argumentamos que la automatización y las herramientas de ciencia de datos más avanzadas no eliminan ni reducen la demanda de ciencia de datos (incluidos casos de uso como la historia de Target). ¡La automatización crea más demanda de ciencia de datos!

La razón es la siguiente.

Comprender los problemas comerciales es el mayor desafío

El problema más importante en la ciencia de datos no es qué algoritmo de aprendizaje automático elegir, sino cómo limpiar los datos. Antes de escribir código, hay una cosa en la que pensar. Es decir, qué tipo de datos deben seleccionarse y qué tipo de pregunta debe establecerse para estos datos.

Lo que falta en la imagen general (aunque sea en términos de observación ilusoria) es ingenio, creatividad y comprensión del negocio dedicado a estas tareas. ¿Por qué preocuparse por si una clienta está embarazada?, basándose en una gran cantidad de trabajo de investigación, los científicos de datos de Target han descubierto por qué esta es una base de clientes de alto margen que se prepara para transformar a los minoristas. ¿Qué conjunto de datos está disponible? ¿Cómo puede plantear una pregunta científicamente verificable para esos conjuntos de datos?

El equipo de ciencia de datos de Target ha descubierto cómo vincular los datos del registro de bebés (servicio de creación de listas de compras de bebés) con el historial de compras y vincularlos con los gastos de los clientes. ¿Cómo mides los resultados? Formular requisitos no técnicos en preguntas técnicas que puedan responderse con datos es una de las tareas más difíciles en la ciencia de datos, y es muy difícil ser más preciso. Sin una persona con experiencia para formular estos problemas, ni siquiera podríamos comenzar a trabajar en ciencia de datos.

Crear requisitos previos

Después de formular preguntas sobre ciencia de datos, los científicos de datos deben describir las suposiciones. Esto a menudo implica tareas como la mezcla de datos, la limpieza de datos y la ingeniería de características. Podría decirse que los datos del mundo real son caóticos, y se deben hacer muchas suposiciones para cerrar la brecha entre los datos que tiene y las preguntas comerciales o políticas en las que está trabajando. Además, estos supuestos dependen en gran medida del conocimiento práctico y el contexto empresarial.

En el ejemplo de Target, los científicos de datos necesitaban compilar suposiciones sobre sustitutos para el embarazo, marcos de tiempo realistas para el análisis y controles apropiados para comparaciones precisas. Es casi seguro que tuvieran que hacer suposiciones realistas que descartarían datos extraños y normalizarían correctamente las características. Todo este trabajo se basa en gran medida en el juicio humano. Es peligroso sacar a los humanos de este circuito, ya que los problemas basados en sesgos en el aprendizaje automático han ido aumentando uno tras otro. Muchos de los problemas, la ingeniería característica de eliminación de la afirmación fuertemente al aprendizaje profundo del algoritmo que se ha producido desde la periferia no hará ninguna coincidencia.

Si bien parte del aprendizaje automático central está automatizado (incluso enseñamos cómo automatizar estos flujos de trabajo), la combinación de datos, que representa el 90% del trabajo real en ciencia de datos, La limpieza de datos y la ingeniería de funciones no se pueden automatizar de forma segura.

Ejemplo histórico

Existe un precedente claro que sugiere que la ciencia de datos no está completamente automatizada. En un área, personal altamente capacitado producen código que hace que las computadoras realicen hazañas asombrosas. A estas personas se les paga mucho más (como era de esperar) que a las personas no calificadas en esta área, y existen programas educativos dedicados a capacitar esta habilidad. La presión económica resultante para automatizar este campo es tan intensa como la presión sobre la ciencia de datos. El campo es la ingeniería de software.

De hecho, a medida que la ingeniería de software se vuelve más fácil, la demanda de programadores solo aumenta. Esta paradoja de mayor productividad, precios más bajos y, en última instancia, mayor demanda a través de la automatización no es nueva. Es un fenómeno que se ve repetidamente en varios campos, desde la ingeniería de software hasta el análisis financiero y la contabilidad corporativa . La ciencia de datos no es una excepción y la automatización impulsará la demanda de este conjunto de habilidades.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies