Machine learning para dummies

Vivimos en un entorno competitivo en el que la manera en la que utilizamos los datos de los que disponemos, cuyo volumen no deja de aumentar, puede resultar decisiva. “Big data”, “machine learning” o “inteligencia artificial” son algunos de los términos que expresan una creciente sofisticación en este ámbito, mientras que la del “data scientist” es una nueva profesión que ha llegado para quedarse. Con objeto de arrojar luz sobre la materia, he pedido a Cristóbal Esteban, investigador de machine learning en Siemens y fundador de Predictors.ai, que nos explique varios de estos conceptos y su importancia (Gracias amigo!).

 

1/ Cada vez se habla más del big data y del machine learning, a menudo sin demasiada precisión. ¿Puedes explicarnos estos términos, versión “para dummies”?

Machine learning es la disciplina que estudia cómo conseguir que un ordenador aprenda. Tradicionalmente hemos usado los lenguajes de programación para explicar a los ordenadores cómo realizar las tareas que queremos que hagan. El problema es que, siguiendo esta estrategia, nos encontramos ante una gran limitación: los ordenadores sólo podrán hacer tareas que nosotros sepamos explicarles cómo hacer. Sin embargo, ¿serías capaz de explicar a alguien cómo convertir una fotografía en un Picasso? O, ¿cómo anticipar el número de unidades que se venderán de un determinado producto? Explicar estas tareas es muy difícil porque ni siquiera nosotros mismos sabemos cómo hacerlas. Y es aquí donde el machine learning entra en juego: podemos proporcionar al ordenador una base de datos con ejemplos de aquella tarea que queremos lograr, y la propia máquina escribirá el programa que le permita realizar dicha tarea.

La definición de big data está menos establecida. En general, se refiere a una cantidad de datos tal que no podemos manejarla mediante sistemas tradicionales. Por ejemplo, una base de datos tan grande que, si intentamos realizar una consulta en ella, el tiempo de respuesta es tan elevado que no es factible usarla. Para solucionar este problema existen tecnologías que realizan múltiples consultas en paralelo, empleando varios computadores que, posteriormente, unen las respuestas. Este sería un ejemplo de big data. Actualmente se usa la etiqueta big data para todo, pero, si puedes trabajar con una determinada base de datos en tu ordenador personal, entonces no es big data. El 99% de las veces que he visto algo anunciado como big data, no lo era.

El enlace entre estos dos conceptos (machine learning y big data) es que, en general, cuanto mayor sea la cantidad de datos con la que entrenemos nuestros algoritmos de machine learning, mejores serán sus predicciones. Por eso es importante adelantarse a la jugada y comenzar a recolectar la mayor información posible cuanto antes, puesto que, si comienzas a planteártelo una vez que tu competencia ya esté beneficiándose de esta tecnología, entonces será demasiado tarde.

 

2/ Recientemente estuve en San Francisco, donde los equipos de data scientists están cobrando cada vez mayor relevancia dentro de las principales start-ups. ¿Hasta qué punto crees que esta función de extracción y análisis de datos puede externalizarse?

En lo que infraestructura se refiere, en la gran mayoría de los casos la mejor solución es usar servicios de computación en la nube. Esto es debido a que montar una estructura de computación in-house conlleva una serie de costes recurrentes asociados que hace que, para la mayor parte de las empresas, no sea rentable.

En cuanto a los recursos humanos, externalizar las tareas de data science es perfectamente factible y también la solución más apropiada para la mayor parte de las empresas. No obstante, al igual que la mayoría de las empresas del mundo subcontratan el diseño de su página web o el desarrollo de su aplicación móvil, existen muchas otras empresas  para las que estos asuntos son core en su negocio y, por lo tanto, prefieren desarrollarlo de manera interna.

En el contexto actual, en que las empresas en general todavía no tienen muy claro cómo aplicar machine learning a su negocio, y ello combinado con la carestía de expertos reales en el tema, se nos presenta un escenario donde la solución evidente para la mayoría es acceder a consultores especializados que, al menos, proporcionen un buen análisis inicial y definan el camino a seguir.

 

3/ ¿En qué consiste Predictors.ai y qué planes tenéis a corto y largo plazo?

Si un gran estratega pudiera obtener un super poder, creo que con toda probabilidad elegiría la capacidad de ver el futuro, ya que así podría saber qué acción debe tomar en el presente para obtener el resultado que desea. Y resulta que, gracias al machine learning, las empresas pueden emplear cualquier base de datos para realizar predicciones que anticipen el futuro. Por ejemplo, en asuntos de marketing, podemos confeccionar predictores que nos ayuden a tomar decisiones basadas en datos acerca de cualquiera de las famosas “4 Ps”: Promotion, Product, Pricing and Placement. Cualquier base de datos que no se esté empleando para realizar predicciones es un activo que está siendo desaprovechado.

Desde el punto de vista de las empresas, nuestro objetivo es proporcionarles todos los servicios necesarios en torno al machine learning: el análisis del caso de uso, la concepción de la idea inicial y el desarrollo y hospedaje del algoritmo de inteligencia artificial. El producto final que obtienen es un predictor en la nube que pueden usar cuando deseen y desde cualquier dispositivo. Con aplicaciones como Dropbox las empresas pueden extender su capacidad de almacenamiento; gracias a Predictors.ai, las empresas extienden su inteligencia.

Desde el punto de vista de los data scientist, Predictors.ai es una plataforma donde pueden obtener de manera extremadamente sencilla un interfaz de usuario web para sus modelos de machine learning. Además, también pueden encontrar proyectos para trabajar como freelances. Así pues, mediante Predictors.ai los ingenieros y científicos de machine learning pueden olvidarse de lo que nos les gusta (buscar proyectos y preparar interfaces de usuario), para así centrarse en su pasión: los algoritmos de inteligencia artificial. Tenemos también gran interés por contribuir a la comunidad y al desarrollo de la inteligencia artificial; por esto, seguimos el modelo de GitHub y ofrecemos alojamiento y recursos gratuitos para aquellos predictores que se publican abiertos al público.

 

Si quieres profundizar sobre data science, te recomiendo varios artículos publicados por Cristóbal en Linkedin:

 

Deja un comentario