Machine learning para dummies

Vivimos en un entorno competitivo en el que la manera en la que utilizamos los datos de los que disponemos, cuyo volumen no deja de aumentar, puede resultar decisiva. 鈥Big data鈥, 鈥machine learning鈥 o 鈥渋nteligencia artificial鈥 son algunos de los t茅rminos que expresan una creciente sofisticaci贸n en este 谩mbito, mientras que la del 鈥data scientist鈥 es una nueva profesi贸n que ha llegado para quedarse. Con objeto de arrojar luz sobre la materia, he pedido a Crist贸bal Esteban, investigador de machine learning en Siemens y fundador de Predictors.ai, que nos explique varios de estos conceptos y su importancia (Gracias amigo!).

 

1/ Cada vez se habla m谩s del big data y del machine learning, a menudo sin demasiada precisi贸n. 驴Puedes explicarnos estos t茅rminos, versi贸n 鈥減ara dummies鈥?

Machine learning es la disciplina que estudia c贸mo conseguir que un ordenador aprenda. Tradicionalmente hemos usado los lenguajes de programaci贸n para explicar a los ordenadores c贸mo realizar las tareas que queremos que hagan. El problema es que, siguiendo esta estrategia, nos encontramos ante una gran limitaci贸n: los ordenadores s贸lo podr谩n hacer tareas que nosotros sepamos explicarles c贸mo hacer. Sin embargo, 驴ser铆as capaz de explicar a alguien c贸mo convertir una fotograf铆a en un Picasso? O, 驴c贸mo anticipar el n煤mero de unidades que se vender谩n de un determinado producto? Explicar estas tareas es muy dif铆cil porque ni siquiera nosotros mismos sabemos c贸mo hacerlas. Y es aqu铆 donde el machine learning entra en juego: podemos proporcionar al ordenador una base de datos con ejemplos de aquella tarea que queremos lograr, y la propia m谩quina escribir谩 el programa que le permita realizar dicha tarea.

La definici贸n de big data est谩 menos establecida. En general, se refiere a una cantidad de datos tal que no podemos manejarla mediante sistemas tradicionales. Por ejemplo, una base de datos tan grande que, si intentamos realizar una consulta en ella, el tiempo de respuesta es tan elevado que no es factible usarla. Para solucionar este problema existen tecnolog铆as que realizan m煤ltiples consultas en paralelo, empleando varios computadores que, posteriormente, unen las respuestas. Este ser铆a un ejemplo de big data. Actualmente se usa la etiqueta big data para todo, pero, si puedes trabajar con una determinada base de datos en tu ordenador personal, entonces no es big data. El 99% de las veces que he visto algo anunciado como big data, no lo era.

El enlace entre estos dos conceptos (machine learning y big data) es que, en general, cuanto mayor sea la cantidad de datos con la que entrenemos nuestros algoritmos de machine learning, mejores ser谩n sus predicciones. Por eso es importante adelantarse a la jugada y comenzar a recolectar la mayor informaci贸n posible cuanto antes, puesto que, si comienzas a plante谩rtelo una vez que tu competencia ya est茅 benefici谩ndose de esta tecnolog铆a, entonces ser谩 demasiado tarde.

 

2/ Recientemente estuve en San Francisco, donde los equipos de data scientists est谩n cobrando cada vez mayor relevancia dentro de las principales start-ups. 驴Hasta qu茅 punto crees que esta funci贸n de extracci贸n y an谩lisis de datos puede externalizarse?

En lo que infraestructura se refiere, en la gran mayor铆a de los casos la mejor soluci贸n es usar servicios de computaci贸n en la nube. Esto es debido a que montar una estructura de computaci贸n in-house conlleva una serie de costes recurrentes asociados que hace que, para la mayor parte de las empresas, no sea rentable.

En cuanto a los recursos humanos, externalizar las tareas de data science es perfectamente factible y tambi茅n la soluci贸n m谩s apropiada para la mayor parte de las empresas. No obstante, al igual que la mayor铆a de las empresas del mundo subcontratan el dise帽o de su p谩gina web o el desarrollo de su aplicaci贸n m贸vil, existen muchas otras empresas 聽para las que estos asuntos son core en su negocio y, por lo tanto, prefieren desarrollarlo de manera interna.

En el contexto actual, en que las empresas en general todav铆a no tienen muy claro c贸mo aplicar machine learning a su negocio, y ello combinado con la carest铆a de expertos reales en el tema, se nos presenta un escenario donde la soluci贸n evidente para la mayor铆a es acceder a consultores especializados que, al menos, proporcionen un buen an谩lisis inicial y definan el camino a seguir.

 

3/ 驴En qu茅 consiste聽Predictors.ai y qu茅 planes ten茅is a corto y largo plazo?

Si un gran estratega pudiera obtener un super poder, creo que con toda probabilidad elegir铆a la capacidad de ver el futuro, ya que as铆 podr铆a saber qu茅 acci贸n debe tomar en el presente para obtener el resultado que desea. Y resulta que, gracias al machine learning, las empresas pueden emplear cualquier base de datos para realizar predicciones que anticipen el futuro. Por ejemplo, en asuntos de marketing, podemos confeccionar predictores que nos ayuden a tomar decisiones basadas en datos acerca de cualquiera de las famosas 鈥4 Ps鈥: Promotion, Product, Pricing and Placement. Cualquier base de datos que no se est茅 empleando para realizar predicciones es un activo que est谩 siendo desaprovechado.

Desde el punto de vista de las empresas, nuestro objetivo es proporcionarles todos los servicios necesarios en torno al machine learning: el an谩lisis del caso de uso, la concepci贸n de la idea inicial y el desarrollo y hospedaje del algoritmo de inteligencia artificial. El producto final que obtienen es un predictor en la nube que pueden usar cuando deseen y desde cualquier dispositivo. Con aplicaciones como Dropbox las empresas pueden extender su capacidad de almacenamiento; gracias a Predictors.ai, las empresas extienden su inteligencia.

Desde el punto de vista de los data scientist, Predictors.ai es una plataforma donde pueden obtener de manera extremadamente sencilla un interfaz de usuario web para sus modelos de machine learning. Adem谩s, tambi茅n pueden encontrar proyectos para trabajar como freelances. As铆 pues, mediante Predictors.ai los ingenieros y cient铆ficos de machine learning pueden olvidarse de lo que nos les gusta (buscar proyectos y preparar interfaces de usuario), para as铆 centrarse en su pasi贸n: los algoritmos de inteligencia artificial. Tenemos tambi茅n gran inter茅s por contribuir a la comunidad y al desarrollo de la inteligencia artificial; por esto, seguimos el modelo de GitHub y ofrecemos alojamiento y recursos gratuitos para aquellos predictores que se publican abiertos al p煤blico.

 

Si quieres profundizar sobre data science, te recomiendo varios art铆culos publicados por Crist贸bal en Linkedin:

 

Related posts

Deja una respuesta

Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *