“Si ha visto mi perfil en la red profesional LinkedIn se habrá dado cuenta de que no tengo puesto nada sobre mí. Quiero ser lo más anónimo posible, pero cada vez me resulta más difícil”. Es Juan Antonio Guerrero Durán. Su nombre salió a la palestra hace justo dos años, a finales de 2013, cuando Kaggle, comunidad de los mejores expertos en la ciencia de datos (’data science’) le aupó al número uno del ‘ranking’ mundial por la excelencia de sus aportaciones en el análisis de datos y la creación de modelos predictivos. Lleva dos años sin bajar de los diez primeros puestos, actualmente está en el octavo.
Quizá a usted ya le suenen los términos ‘big data’ y algoritmo, indispensables para vertebrar nuestra sociedad de inmensas interconexiones digitales. Y usted lo asociará con las mentes pensantes de Google, de Microsoft,... Pero no con un vecino de Los Remedios, que hace tan poco ruido en Sevilla que casi nunca coge el coche, y siempre va y viene paseando en su tránsito entre su domicilio y su puesto de trabajo diurno en el Hospital Virgen del Rocío. Y digo diurno porque es un acérrimo autodidacta que en su hogar, con su ordenador personal, por las tardes-noches, está viviendo una segunda juventud, aprendiendo, experimentando y participando en la primera línea internacional del talento aplicado a la creación de modelos predictivos.
Nació en Cádiz en 1961. Procede de una familia humilde, de las que animaban a sus hijos varones a aprovechar el servicio militar para enrolarse en la Marina, como hizo su padre. Su madre llevaba la contabilidad en una agencia de seguros hasta que se casó. José Antonio Guerrero León tuvo querencia desde niño por las matemáticas. “Cuando terminé COU en mi colegio de La Salle, en Cádiz, decidí hacer la carrera de Matemáticas y desde entonces vivo en Sevilla”. Su esposa trabaja en casa, tienen dos hijos, él licenciado en Marketing Digital, ella en Administración de Empresas, “los dos están sufriendo las mismas dificultades que la mayor parte de la juventud para encontrar empleo”.
-¿Cómo dio el paso de la Facultad de Matemáticas al sector sanitario?
-Empecé trabajando tres años en la facultad, dando clases y con becas para llevar a cabo investigación. Es de magnífico nivel gracias a la calidad e implicación de muchos profesores, por eso es la mejor situada de todas las de Sevilla en el ‘ranking’ mundial de excelencia. En 1986, el Hospital de Valme contactó con la facultad, querían incorporar a una persona con perfil estadístico para apoyar tanto las tareas de investigación médica como los análisis de los datos de gestión hospitalaria. He trabajado en Valme 25 años, y durante 15 años he sido directivo en el hospital, coordinando también la modernización de la tecnología sanitaria tanto en equipos como en sistemas. En 2011 decidí que era el momento de dejar las labores directivas allí y me incorporé en la plaza que tengo en el Hospital Virgen del Rocío para poder dedicarme solo a la ciencia de datos.
-Díganos ejemplos de su apoyo como estadístico a la investigación médica en Valme.
-Recuerdo un proyecto epidemiológico sobre la leptospirosis, patología que se transmite en los arrozales de las marismas del Guadalquivir cuando la gente trabaja metida dentro del agua. Lo dirigía el doctor Ignacio Marín. Otro proyecto en el que también trabajé durante varios años, dirigido por el doctor Antonio Grilo, fue el análisis de la contaminación de metales pesados en peces de la zona. En mis primeros años en Valme estaba centrado en dar apoyo a unas 50 iniciativas al año de investigaciones médicas. Y algo en lo que se me implicó desde el principio y es muy importante: ayudar a la planificación metodológica y estadística de los proyectos médicos de investigación, o de los ensayos clínicos.
-Imagino que, por pura empatía y sinergia, es buen conocedor de los avances médicos.
-Sí, soy bastante curioso, y con mi forma de ser, acabas teniendo un conocimiento sobre todo lo vinculado a esas investigaciones. No para meterme en un quirófano, pero sí para mantener una conversación con un médico y que, al cabo de 15 o 20 minutos, él te diga: ‘¿Pero tú no eres médico...?’.
-Hoy en día, incluso los aparatos médicos con los que se atiende a un paciente tienen sistemas informáticos de captación y transferencia de datos.
-Y eso permite interconectarlos con los sistemas de gestión de datos. Antes, un aparato radiológico se parecía más a una reveladora fotográfica. Hoy se parece más a un ordenador, con software para almacenar datos, transferir datos y analizar datos. Por lo tanto, en un hospital, toda la infraestructura debe favorecer la aportación de datos desde cualquier equipo a un sistema general.
Aproximadamente, ¿de cuántas personas hay datos en el Virgen del Rocío?
-Hay más de dos millones de historias médicas en las actuales bases de datos digitalizadas, tanto de personas vivas como de fallecidas. Todos los aparatos y todos los departamentos vuelcan información al sistema, lo que genera un impresionante volumen de datos. Y los analizo tanto para fines docentes como para investigaciones clínicas. Y, por supuesto, para la gestión y eficiencia del complejo sanitario.
¿Cómo está aplicando la ‘data science’ al mayor hospital de Sevilla y Andalucía?-Por ejemplo, en el análisis de mortalidad, y aprovechando la potencia de cálculo que tienen ahora los ordenadores. Podemos construir algoritmos que mejoran las predicciones un 20 o 30%. La base de datos incluye muchas variables (sexo, edad, diagnóstico principal, diagnósticos secundarios, historial médico previo, medicaciones, si esos pacientes han fallecido o no, etc.) y construyes un ‘árbol’ en el que intentas predecir la probabilidad de mortalidad en ese episodio. Y con esa probabilidad teórica de fallecimiento, se contrasta con el dato real de si ha fallecido o no. Y estableces una mortalidad estandarizada y ajustada, que permite saber si el grado de mortalidad se está o no desviando de una línea base respecto a un año, dos años,... El historial de cada paciente tiene muchos códigos asociados que se introducen en el algoritmo, y permite detectar si hay algún posible factor latente que esté motivando una mortalidad mayor que en una época anterior. Por ejemplo, con los picos de incidencia de la gripe. Son indicadores que sirven de alerta y que se monitorizan periódicamente para valorar cómo lo estamos haciendo desde el sistema sanitario.
-¿Ha realizado alguna investigación específica sobre la mortandad causada por la gripe?
-Sí, con Sergei Yurgenson, él desde la Harvard Medical School y yo desde Sevilla. Fue un acuerdo que surgió a través de la red Kaggle y lo patrocinó la farmacéutica Genentech. Un intento de crear un modelo de predicción de los mayores picos estacionales de la gripe y cuál es su intensidad. Basándonos en series históricas, en ventas de fármacos, en vacunaciones, teniendo en cuenta datos geográficos, y de temperaturas, lluvias, condiciones medioambientales, etc. Es muy difícil porque la mutación del virus de la gripe es frecuente y con un alto componente aleatorio.
-¿A qué conclusiones llegaron?
-Hicimos modelos de autocorrelación, en los cuales los resultados de un año están condicionados con los años previos por dobles motivos: porque hay una inmunización a corto plazo que sirve si no hay una mutación excesiva de la cepa; y por otro lado, si hay un año en que la gripe es muy traumática en un país, la población se mentaliza y al año siguiente se vacuna más. Hay más prevención. No dejan de ser hipótesis con las que trabajamos a la hora de poder explicar el por qué, cuando analizas los datos de muchos años, siempre sucede que tras un año de alta incidencia de la gripe, en los siguientes tienen menos intensidad.
-¿Qué es la comunidad Kaggle?
-Es una plataforma especializada en el desarrollo de la ciencia de datos con nuevas tecnologías. A la que se vinculan investigadores desde universidades, empresas, etc., y en la que se ponen datos a disposición de la comunidad científica para que se hagan modelos, propuestas de análisis, resolver problemas, proyectos,... La mayor parte de las iniciativas están en abierto y cualquier miembro puede vincularse y colaborar, solo para algunas se convoca por invitación. Ya hay más de 200.000 personas vinculadas.
-¿Que le ha aportado formar parte de Kaggle?
-Empecé como un entrenamiento a coger datos de esa plataforma para intentar trabajarlos. Kaggle tiene una cosa muy buena. Tú haces los modelos, los subes a la plataforma y ésta te da una medida sobre la marcha de cómo estás en nivel, de cómo de bueno es lo que has hecho, y te sirve para evaluar si estás mejorando, si una técnica es más adecuada que otra. Cada tarde, en casa, dedicaba tiempo a reciclarme y a avanzar. Y comienzan a surgir contactos y colaboraciones por parte de especialistas que están en cualquier lugar del mundo y comparten contigo un perfil similar. Aprendemos mutuamente. Difícilmente lo puedes conseguir de otro modo.
-¿Se reúnen de modo presencial en alguna convención mundial?
-A través de Kaggle estuve en noviembre de 2014 en Silicon Valley invitado por una empresa norteamericana de ‘data science’, se llama H2O.ai, y fue una experiencia muy enriquecedora. 500 personas de todo el mundo discutiendo sobre las nuevas tecnologías, avances y tendencias. Me llamó muchísimo la atención que el 50% eran asiáticos. Sobre todo de la India, el 35%. Y los europeos éramos escasamente un 10%. Te hace replantearte cómo en la sociedad europea no estamos dándole importancia a lo que en otros países sí se está fomentando.
-¿Cómo alcanzó el número uno mundial en el ‘ranking’ de Kaggle?
-No me planteé ese objetivo. Mi intención era reciclarme. Influyó el estudio predictivo sobre la gripe. En el número uno solo estuve un par de semanas, es solo un hecho puntual, la movilidad es muy grande en ese ‘ranking’, que también funciona mediante un algoritmo para analizar las aportaciones de cada investigador, y a cada uno lo comparan con los demás, no hay margen a la subjetividad. Desde entonces sí he seguido estando entre los diez primeros del mundo. Pero no es mi objetivo. Mi tiempo es limitado. Por la mañana tengo mi trabajo. Por la tarde me dedico también a otros proyectos, como dar cursos en la Facultad de Matemáticas.
-¿En qué fronteras del conocimiento están avanzando expertos como usted?
-Algunos de mis proyectos van en relación con procesamiento de lenguaje natural: coger un texto libre y hacer que un algoritmo no solo lo interprete sino que extraiga conocimiento de ese texto. Creo que es una de las líneas de investigación que más futuro tiene. Se están desarrollando mucho técnicas que sean capaces de procesar y extraer conocimiento de grandes volúmenes de información sin requerir para ello una tarea previa de catalogación por parte de un humano. Esto viene motivado porque poner a una persona a catalogar e identificar una porción de esos datos para que luego un algoritmo aprenda eso, es muy costoso, tanto en tiempo como en dinero.
-Todos esos nuevos sistemas son para asimilar la inmensa cantidad de datos que van a generarse y circular con los ‘wearables’, el llamado ‘internet de las cosas’ en todo tipo de objetos.
-Es indispensable que las técnicas funcionen casi desasistidamente y se interconecten automáticamente. Sí hacen falta personas para interpretar y analizar la eficiencia económica, o científica, o sanitaria. Por ejemplo, epidemias que puedan estar relacionadas con la alimentación o con componentes químicos. Se va a poder llegar a analizar quién ha consumido y quién no esos productos, a ese nivel de detalle hoy no es posible.
-Se utiliza la palabra ‘unicornio’ para definir a los autodidactas que se forman en ‘data science’.
-Sí, propiciamos mediante foros digitales una interacción continua para pedir y dar referencias, consultar herramientas, intercambiar experiencias, solicitar la opinión de otros sobre lo que estás haciendo. Es vocacional, colaborativo. Yo siempre he sido autodidacta, y autosuficiente buscando fuentes de información y aprendiendo por mi cuenta.
-Este es un sector estratégico y nuestro sistema educativo, en una sociedad con 30% de paro, y con un 60% de jóvenes sin trabajo, no está formando para una actividad donde hay ya gran demanda de profesionales. ¿Qué recomienda para subsanar esta anomalía?
-El mayor problema es que la sociedad no potencia que haya muchas más personas preparándose para dedicarse a estos temas. Hay que replantear algunas titulaciones universitarias para enfocarlas a lo que se requiere. El apelativo ‘unicornio’ no es más que la consecuencia de que no hay profesionales que tengan un perfil mixto. Y tenemos que convertirnos en una ‘fábrica de unicornios’, como ya lo son otros países. Organizar las titulaciones y los estudios de forma que haya más complementariedad entre la parte más teórica que puedan suponer las matemáticas y la estadística; la parte más aplicada de la informática, y algunas perspectivas que puedan aportar otras titulaciones como la econometría, algunas ingenierías... Compendiarlo y organizarlo bien para dar la posibilidad de que una persona se forme así en su periodo universitario y salga con un perfil muy aproximado de lo que se le va a demandar, reduciendo la envergadura de lo que ha de complementar después en formación. No como ahora, que tiene que hacer una carrera, y luego dedicar más años a complementarse en todo lo demás que no está incluido para nada en esa carrera, da lo mismo que haya optado por Matemáticas, Económicas, Ingeniería, Informática, Estadística...
-¿Hoy por hoy, qué camino recomienda para ser ‘unicornio’?
-Complementen cuanto antes el plan de estudios de Informática hacia el ‘data science’. Y, en el mercado privado de cursos, alerto para discernir entre los buenos que han aparecido a tenor de la gran demanda, y otros que surgen con espíritu oportunista solo para hacer caja.
-¿Los especialistas en ‘big data’ están ya muy cotizados salarialmente?
-Está en España un escalón por encima de los profesionales en otras disciplinas técnicas o informáticas. Fuera de España, dos escalones por encima. Pero cualquiera que sale en esos programas de televisión por no hacer nada, gana muchísimo más. Es lo que valora la sociedad.
-¿No le han llegado ofertas para trabajar fuera de Sevilla?
-Sí, pero me gusta mi trabajo, me gusta donde vivo,... no ha habido de momento la oferta que me incentivara lo suficiente, profesionalmente hablando, para cambiar de aires. He preferido buscar la compatibilidad de lo que hago con mis investigaciones, con colaboraciones puntuales a nivel internacional, y seguir evolucionando así. Todo esto ha surgido por el cambio bastante profundo que he logrado en mi vida profesional desde hace cuatro años, y otro cambio total que implicara traslado iba a ser demasiado cambio en poco tiempo.
-¿Cómo se organiza para coordinarse con investigadores que viven en horarios opuestos al nuestro?
-Por ejemplo, un proyecto para una organización de Hong Kong que hicimos entre un brasileño, un chino y yo. La diferencia horaria entre cada uno es de unas ocho horas, con lo cual tuvimos que hacer el trabajo sin estar los tres simultáneamente hablando a la vez, solo de dos en dos. Nos poníamos de acuerdo y nos comunicábamos yo con el brasileño, el brasileño con el chino, el chino conmigo. Pero los tres a la vez era prácticamente imposible. Y toda la comunicación la hacíamos mediante correo electrónico.