EN

Uno de los aspectos más estimulantes de nuestro trabajo es poder asistir en tiempo real al desarrollo de nuevas tecnologías, nuevos enfoques o la mejora continua -y vertiginosa- de sistemas de Inteligencia Artificial. Ya sea aprendiendo nuevas soluciones o siendo protagonistas de la mejora de alguna de ellas, el trabajo en Inteligencia Artificial cambia constantemente.

Para estar al día de todos estos avances podemos asistir a la multitud de conferencias en Ciencia de Datos que se celebran cada año en todo el mundo. Tanto si son conferencias más generalistas como otras más especializadas, es el lugar idóneo para descubrir soluciones del estado del arte y compartir nuestros aprendizajes. Por esa razón, en BBVA AI Factory disponemos de un presupuesto extraordinario para asistir a eventos o conferencias relevante para nuestro trabajo.

Después de este último año y medio de pausa, muchas conferencias ya están planificando su vuelta a los eventos presenciales.

Conferencias en campos específicos

El pasado mes de septiembre tuvo lugar Recsys 2021 en formato híbrido (on line y presencial). Foto de ACM RecSys.

FAccT

Donde: Seúl, Corea del Sur
Cuando: Junio 21-25, 2022
Formato: on line y presencial
⎋ Mas información

El acrónimo FaccT hace referencia a Fairness Accountability and Transparency of socio-technical systems (equidad, responsabilidad y transparencia de los sistemas socio-técnicos) y reúne a investigadores y profesionales interesados en las implicaciones sociales de los sistemas algorítmicos. Los sistemas basados en Inteligencia Artificial y alimentados por grandes volúmenes de datos tienen aplicaciones tanto en el sector público como en múltiples industrias como la sanitaria, el márketing, los medios de comunicación, los recursos humanos, el entretenimiento o las finanzas, por nombrar algunas. Para entender y evaluar las implicaciones sociales de estos sistemas es útil estudiarlos desde diferentes perspectivas, por lo que esta conferencia es única en su género por su multidisciplinariedad. Reúne a participantes de los campos de la informática, las ciencias sociales, el derecho y las humanidades, tanto de la industria como del mundo académico, para reflexionar sobre temas como la equidad algorítmica, si estos sistemas contienen riesgos inherentes o sesgos potenciales o cómo crear conciencia sobre sus impactos sociales

Data + AI Summit 2022

Donde: San Francisco, Estados Unidos
Cuando: Junio 27-30, 2022
Formato: presencial (aunque también será posible algún tipo de participación en remoto)
⎋ Mas información

Anteriormente conocida como Spark Summit, la conferencia -organizada por Databricks– ofrece una amplia panorámica de desarrollos recientes, casos de uso y experiencias en torno a Apache Spark y otras tecnologías relacionadas. La variedad de temas puede ser interesante para muchos roles en el ámbito de la Ciencia de Datos y el aprendizaje automático (por ejemplo, Ingenieros de Datos y ML, Científicos de Datos, Investigadores, o tomadores de decisiones clave, por nombrar algunos), y siempre está orientado a big data y pipelines de ML escalables. Las presentaciones suelen tener una orientación práctica y también incluyen talleres de formación y sesiones con los creadores originales de tecnologías de código abierto, como Apache Spark, Delta Lake, MLflow y Koalas. Los contenidos de la edición anterior están disponibles bajo demanda de forma gratuita aquí. Tras dos ediciones en formato on line, este año el Summit se celebrará en San Francisco, aunque se anuncia en la página web algún tipo de participación híbrida.

Recsys

Donde: Seattle, Estados Unidos
Cuando: Septiembre 18-23, 2022
Formato: presencial
⎋ Mas información

RecSys es la principal conferencia internacional cuyo objetivo es presentar los últimos avances, tendencias y retos en el amplio campo de los sistemas de recomendación. También cuenta con tutoriales que cubren el estado del arte en este ámbito, talleres, sesiones especiales para socios industriales de diferentes sectores como el de los viajes, los juegos y la moda, y un simposio de doctorado. RecSys comenzó con 117 personas en Minnesota en 2007, y llega el próximo año a su decimosexta edición. Uno de los aspectos clave de esta conferencia hasta ahora ha sido su buena mezcla entre trabajos académicos e industriales.

Conferencias generalistas en ML/AI

Un momento durante KDD 2019

AAAI Conference on Artificial Intelligence

Donde: Vancouver, Canadá
Cuando: Febrero 22 – Marzo 1, 2022
Formato: presencial
⎋ Mas información

La Asociación para el Avance de la Inteligencia Artificial (AAAI) es una prestigiosa sociedad dedicada a avanzar en la comprensión de los mecanismos que subyacen al comportamiento inteligente y su plasmación en las máquinas. Su conferencia promueve el intercambio de conocimientos entre profesionales, científicos e ingenieros de Inteligencia Artificial. Explora los avances en el núcleo de la IA y también acoge 39 talleres sobre una amplia gama de aplicaciones de IA, como los servicios financieros, la ciberseguridad, la salud, la equidad, entre otros. Puedes consultar la Conferencia de 2021 y también una reseña de la edición de 2020.

Applied Machine Learning Days (AMLD)

Donde: EPFL. Lausanne, Suiza
Cuando: Marzo 26 – 30, 2022
Formato: presencial
⎋ Mas información

Cada año la conferencia consta de diferentes tracks sobre diferentes temas. Es una conferencia orientada a la aplicación del Machine Learning (aprendizaje automático), por lo que se pueden encontrar temas muy variados cada año. Destaca por su buen equilibrio entre academia e industria, sus presentaciones de apertura y, sobre todo, sus talleres. Se trata de sesiones previas a la propia conferencia en las que realmente se aprende de forma 100% práctica. Consulta aquí la edición de 2020.

The Society for AI and Statistics

Donde: Valencia, España
Cuando: Marzo 28 – 30, 2022
Formato: presencial (aún en discusión)
⎋ Mas información

Descripción de la web: “Desde su creación en 1985, AISTATS ha sido una reunión interdisciplinaria de investigadores en la intersección de la Inteligencia Artificial, el Aprendizaje Automático, la estadística y áreas relacionadas”. Y es cierto. Es una conferencia principalmente estadística con aplicaciones en el campo del aprendizaje automático. Se requiere un buen conocimiento de la estadística para entender los conceptos que allí se discuten y poder explotarlos al máximo. Los ponentes invitados son de gran nivel (muchos del lado gaussiano) y los organizadores cuidan mucho la elección del lugar de celebración ;). Consulta últimas actas.

KDD 2022

Donde: Washington, Estados Unidos
Cuando: Agosto 14-18, 2022
Formato: presencial
⎋ Más información

KDD es una conferencia de investigación que tiene sus orígenes en la minería de datos, pero su alcance se extiende al aprendizaje automático aplicado, y hoy en día se define como “la principal conferencia de Ciencia de Datos“. Más que otras conferencias sobre ML o AI que se dirigen a la comunidad de investigación académica, ésta es especialmente atractiva para las personas con Data Scientist como título de trabajo. Sus principales puntos diferenciadores son: un track de Ciencia de Datos aplicada, un track de ponentes invitados de Ciencia de Datos, y tutoriales prácticos. El listón sigue siendo muy alto desde el punto de vista técnico, pero una gran parte de la investigación proviene del mundo real y la investigación corporativa tiene un gran peso.

Dentro de KDD, en BBVA AI Factory hemos participado activamente tanto en la organización como en el comité de programa del taller de Machine Learning for Finance durante los últimos 2 años, tras participar en el KDD Workshop on Anomaly Detection in Finance en 2019. ¡Lee nuestro artículo sobre la edición de 2019 para hacerte una mejor idea de este evento!

“Más ven cuatro ojos que dos”. Este aforismo tradicional del refranero castellano, también existente en otros idiomas, nos recuerda que son más convenientes aquellas decisiones tomadas por varias personas, frente a las que se sustentan en una única opinión. Una fase crítica en el ámbito de la investigación académica se basa también en esta idea. Se trata del proceso de revisión por pares (peer review, en inglés) que consiste en la evaluación de la idoneidad de un manuscrito para su publicación. Este proceso se lleva a cabo por expertos y expertas en la materia y cumple la función de garantizar estándares de calidad, mejorar el rendimiento y proporcionar credibilidad.

La aplicación de técnicas de ciencia de datos e inteligencia artificial en la industria presenta muchas similitudes con el ámbito académico, dado que parte del trabajo se basa en la experimentación. En BBVA AI Factory somos más de 150 profesionales en campos como ciencia de datos, ingeniería, arquitectura de datos y especialistas de negocio. Los proyectos que desarrollamos son de diversa naturaleza, entre los que se incluyen proyectos de procesamiento de lenguaje natural (NLP por sus siglas en inglés), motores de predicción y optimización de alertas o sistemas de detección de fraude. Con el objetivo de mejorar la calidad, hacer sistemas más robustos y llevar a cabo una auditoría interna, hemos desarrollado una metodología inspirada en la revisión por pares del mundo académico.

Esta metodología cumple también un segundo objetivo: favorecer la transferencia de conocimiento y la participación de una manera más activa en diferentes proyectos, pero sin llegar a formar parte del desarrollo en el día a día. El diseño de esta metodología se ha llevado a cabo como un proyecto transversal y colaborativo, siguiendo varias etapas que os contamos a continuación.

En una primera fase, formamos un grupo de trabajo en el que personas de diferentes equipos y niveles de experiencia definieron los puntos iniciales de una metodología de revisión que cubriera los requisitos básicos de nuestros proyectos. No se partía de cero; nos inspiramos tanto en grandes empresas tecnológicas que han trabajado en propuestas similares – por ejemplo, auditoría de sistemas basados en inteligencia artificial1 2 -, como en científicos/as de datos que compartían su experiencia online3 o o piezas de opinión no técnicas4 5. La combinación de estos materiales y nuestra experiencia en proyectos de ciencia de datos en BBVA dio como resultado una primera versión de metodología de revisión por pares.

En una segunda fase, el proceso se abrió a contribuciones de los/as científicos/as de datos de la AI Factory, recogiendo así un feedback valioso que nos permitió refinar aún más la metodología a nuestras necesidades y desarrollar la metodología de forma colaborativa y participativa para que todos lo sintiéramos como nuestro.

Con este trabajo obtuvimos un sistema flexible y modificable que a lo largo de los próximos meses se aplicará a todos los proyectos de la AI Factory. Este proceso divide todo proyecto de ciencia de datos en cinco fases: 1) Idea inicial, en la que se analiza el objetivo, alcance y viabilidad del proyecto; 2) Datos, que se centra en la información de entrada y salida necesaria para construir la solución; 3) Solución analítica, que cubre cada una de las iteraciones del proceso de desarrollo del modelo a partir de las features obtenidas en la fase anterior; 4) Validación, que se ocupa de ratificar la solución mediante los KPIs de negocio y las métricas utilizadas sobre los conjuntos de train, validación y test; y 5) Monitorización, en la que se pretende determinar qué se quiere monitorizar una vez la solución esté en producción desde diferentes perspectivas: stakeholders y científicos/as de datos.

Figura 1. Las cinco fases de la metodología de revisión por pares propuesta

Una vez establecidas las fases, tuvimos que definir cómo se iba a llevar a cabo el proceso de revisión por pares. Al inicio de un proyecto se designa un equipo revisor, liderado por un/a científico/a de datos Senior, y formado por un mínimo de dos personas. Este equipo se reúne periódicamente con el equipo revisado, quien aporta la documentación necesaria para que se entienda la totalidad de las decisiones tomadas a lo largo de las cinco fases.

Estos puntos de control periódicos se realizan obligatoriamente al finalizar las fases uno, dos, tres y cuatro, y al inicio de la fase cinco, para asegurar que todo sea correcto antes de la puesta en producción. Adicionalmente, y para hacer el proceso flexible a la complejidad de los distintos proyectos, se pueden organizar otras revisiones bajo demanda en medio de las distintas fases. Durante dichas reuniones, el equipo revisor plantea las preguntas que considere necesarias y da feedback constructivo al equipo revisado. En caso de una evaluación positiva, se pasa a la siguiente fase y se rellena un documento one-pager que refleja el contenido y las conclusiones de las sesiones.

Figura 2. El documento One Pager refleja la información básica y conclusiones de cada una de las fases del proyecto. Descarga el documento haciendo click en la imagen.

Al finalizar el proceso se realiza un último punto de control para verificar que la documentación sea correcta y autoexplicativa, decidir los siguientes pasos del proyecto y poder hacer una retrospectiva del proceso completo.

La implantación de la metodología se está realizando gradualmente dentro de BBVA AI Factory, comenzando con tres proyectos piloto totalmente diferentes, que cubren los diferentes casos de uso con los que trabajamos: por ejemplo, uno de los proyectos en revisión está orientado a construir mejores embeddings de transacciones con tarjeta y otro a la utilización de grafos en escenarios de análisis de patrones financieros. Esto nos ha servido para aplicar la revisión de pares a la metodología en sí misma, recopilando comentarios de los equipos revisados y revisores, e identificando puntos de mejora para iteraciones futuras de la metodología.

Además pretendemos que próximas versiones de la metodología incluyan pautas que nos ayuden a mejorar nuestra capacidad de detectar sesgos y así evitar potenciales discriminaciones. De esta forma dispondremos de una herramienta que permita a los miembros de los equipos revisado y revisor cuestionar la equidad del proyecto y plantear mejoras que garanticen que los algoritmos detrás de nuestros sistemas sean imparciales e inclusivos. Queremos que, por diseño, nuestras soluciones sean colaborativas, robustas y justas; preparándonos para la banca del futuro.

En 2018, coincidiendo con la celebración de la copa del mundo de fútbol, una empresa se aventuró a pronosticar la probabilidad que tendría cada equipo de convertirse en campeón (el informe original no está disponible pero sigue pudiendo leerse algún artículo en medios que cubrieron la historia). Encabezaba la lista Alemania, con un 24% de probabilidad. En cuanto Alemania fue eliminada, este pronóstico se tomó como equivocación y la anécdota circuló por las redes sociales.

El problema no estaba tanto en el modelo, del que no se desvelaron detalles, aunque se hablaba de una metodología de simulación, seguramente muy fiable, ya que se conocen modelos robustos de pronósticos deportivos (con ocasión del mundial, en BBVA AI Factory también hicimos una visualización de datos de jugadores y equipos). Tampoco encontramos el problema en la redacción del informe, que nunca llegaba a concluir que sólo podía ganar Alemania.

Lo que sí que fue un problema es la interpretación del resultado que le dieron algunos medios y el público general, ya que muchos interpretaron ‘gana Alemania’ con unos números que no lo afirmaban: la probabilidad estaba tan fragmentada, que si para Alemania era de un 24%, había un 76% de que ganase cualquier otro equipo, ¿no?

Los humanos tendemos a simplificar: el wet bias

Este fenómeno, por el que a los humanos no se nos da bien evaluar escenarios basados en probabilidades, es bien conocido por los meteorólogos. En 2002 fue desvelado un fenómeno bautizado como el sesgo húmedo (“wet bias”): la observación de que los servicios de meteorología en algunos medios estadounidenses solían inflar deliberadamente la probabilidad de precipitación, para que fuese mucho mayor a la que realmente habían calculado. En su conocido libro “The Signal and the Noise”, el estadístico y divulgador de datos Nate Silver profundiza en el fenómeno y llega a atribuirlo a que los meteorólogos creen que la población, cada vez que ve una probabilidad de lluvia demasiado pequeña (digamos un 5%), lo interpreta directamente como “no va a llover” (y, consecuentemente, se lleva una decepción el 5% de las veces).

Ello hace entrever que los humanos tendemos a simplificar la información para tomar decisiones. Y es que ese 5% de probabilidad de lluvia, o el 24% de probabilidad de que Alemania ganase el mundial, no hay que transformarlo en una decisión de blanco o negro, sino tomarlo como información para analizar escenarios. El propio Nate Silver, en su post “The media has a probability problem” o en su última charla en Spark Summit 2020, analiza esta limitación que tenemos las personas para construir escenarios dadas unas probabilidades, ilustrándolo con ejemplos de pronóstico de huracanes o las elecciones en EEUU de 2016. Como argumenta Kiko Llaneras en su artículo “En defensa de la estadística”, toda predicción tiene que caer del lado improbable alguna vez.

Diseñando algoritmos correctamente desde el principio

Quienes trabajamos con Machine Learning en el diseño de productos pensados para ser usados por personas creemos que no debemos reproducir ese mismo error de tomar los resultados de pronósticos como absolutos. Nos corresponde entender bien qué nivel de confianza tiene un sistema de Machine Learning respecto al resultado que ofrece, y transmitirlo adecuadamente a los receptores de la información.

Por ejemplo, si queremos diseñar un algoritmo de pronóstico de los gastos que tendrá un cliente, para informarle a través de la app de BBVA, nos interesa poder analizar cómo de seguro está el algoritmo en cada pronóstico, y quizás descartar los casos donde no tengamos alta seguridad.

Sorprendentemente, muchos algoritmos de pronóstico están diseñados de manera que pueden inducir a un error de interpretación similar al que describíamos en el caso del mundial. Esto es porque la estimación que proporciona un modelo de pronóstico (por ejemplo, el gasto del siguiente mes), y que toma información observada en el pasado (gasto en los meses anteriores) resulta en forma de un único valor. Y ya hemos comentado lo que puede suceder si reducimos todo sólo al valor más probable. Sería más interesante que el sistema fuese capaz de proporcionar un rango (el gasto estará entre 100 y 200 euros), y “atreverse” a reducir el rango cuando está muy seguro (por ejemplo si se detectan gastos fijos recurrentes) o ampliarlo si no lo está (por ejemplo si estamos en un período más impredecible como el vacacional), caso por caso.

En BBVA AI Factory hemos trabajado en una línea de investigación, junto con la Universidad de Barcelona, para tratar de desarrollar ese tipo de algoritmos, usando técnicas de pronóstico con redes neuronales. Esta línea ya la habíamos comentado en otros posts y ha dado como resultado publicaciones, incluyendo una en la prestigiosa conferencia NeurIPS 20191.

Gracias a esta labor de investigación, ahora tenemos algoritmos capaces de hacer pronósticos que resultan en un rango de incertidumbre, o una función matemática de distribución, en lugar de un solo valor, lo cual nos da información más completa.

¿Podemos confiar en las cajas negras? (Spoiler: Sí, con ciertos trucos)

Sin embargo, nos hemos encontrado un obstáculo más: muchas veces, los equipos de ciencia de datos utilizamos modelos que no hemos creado nosotros: modelos de otros, de librerías de código o APIs externas, o de paquetes de software. Si tenemos un sistema de pronósticos que ya está en marcha (por ejemplo, estimación de gastos del siguiente mes, o estimación de saldo de los próximos días), y por alguna buena razón no lo podemos sustituir, ¿podemos diseñar otro algoritmo que estime cómo de seguro está el primero, sin tener que sustituirlo o llegar a modificarlo?

La respuesta es afirmativa y ha sido descrita en nuestro reciente artículo, “Building Uncertainty Models on Top of Black-Box predictive APIs”, publicado en IEEE Access y firmado por los autores de BBVA AI Factory y de la Universidad de Barcelona Axel Brando, Damià Torres, José A. Rodríguez Serrano y Jordi Vitrià. En él, describimos un algoritmo de red neuronal que transforma el pronóstico dado por cualquier sistema ya existente en un rango de incertidumbre. Distinguimos dos casos: el primero, donde conocemos los detalles del sistema que queremos mejorar. Pero también tratamos el caso donde el sistema que queremos mejorar sea lo que llamamos una caja negra, es decir, un sistema que usamos para generar pronósticos pero que no podemos modificar y que no sabemos cómo ha sido construido. Un caso que se da frecuentemente en la realidad, por ejemplo, al usar software de un proveedor.

Esto abre la posibilidad de usar cualquier sistema de pronóstico disponible, que trabaje dando estimaciones puntuales y, sin tener que modificarlo, “aumentarlo” con la capacidad de proporcionar un rango de incertidumbre, como se indica esquemáticamente en la figura anterior. Hemos verificado el sistema en casos de pronóstico bancario y en casos de predicción de consumo eléctrico. Dejamos el enlace al artículo por si otros investigadores, científicos de datos o cualquier persona interesada pueda consultar los detalles.

El reto: traducir la fiabilidad a lenguaje humano

Con este trabajo, hemos cubierto el reto de diseñar un sistema de pronóstico que proporcione más información. Pero sigue sin resolver la pregunta fundamental que hacíamos al inicio: si construimos productos basados en Machine Learning, ¿cómo transferir al usuario final esa información de una manera que entienda que es una estimación útil, pero que podría tener errores?

Esto sigue siendo un tema abierto. Recientemente, una presentación de Apple sobre diseño de productos con machine learning arrojaba algo de luz sobre este aspecto: sugerían comunicar la información incierta en términos de alguna cantidad que apele al usuario. Mejor decir “si esperas a reservar, podrías ahorrar 100 euros”, que “la probabilidad de que el precio baje es de 35%”. La última fórmula (la más utilizada generalmente) podría originar los mismos problemas de interpretación que se produjeron con el caso de Alemania en el mundial. Si los humanos no somos animales de mentalidad estadística, quizás el reto sea traducir la probabilidad a lenguaje humano.