Algoritmos de recomendación: el desafío de conocer los gustos del usuario sin invadir la privacidad

Spotify, Netflix y afines conocen preferencias en base a nuestra actividad. Hablamos con investigadores que exploran técnicas que no husmean asuntos personales.

Algoritmos de recomendación: el desafío de conocer los gustos del usuario sin invadir la privacidadLos algoritmos de recomendación tradicionales funcionan utilizando información personal de los usuarios.

Los algoritmos de recomendación hacen su trabajo en muchas de las herramientas digitales que usamos a diario. Nos dicen qué canciones escuchar, inundan nuestras pantallas con productos que alguna vez buscamos, y aconsejan tal o cual película. Esas secuencias fueron diseñadas para encargarse de lo que antes hacía el tipo que atendía en un videoclub o un amigo que nos conoce: sugerir contenido en función de nuestros gustos y consumos previos.

Hay un problema aquí: las recomendaciones personalizadas de la nueva era nos sumergen en el debate acerca de la privacidad. Particularmente, no me molesta que Spotify sepa qué música o podcasts escucho, pero son muchos los que alertan acerca de los riesgos que implica compartir nuestra actividad a tiempo completo, a través de aplicaciones y plataformas online.

Ya existen soluciones que procuran que las recomendaciones de contenido sean más respetuosas de la privacidad. Pero entonces nos topamos con otro inconveniente: aquellos sistemas se basan en herramientas criptográficas que requieren dispositivos costosos y conexiones avanzadas.

Un algoritmo de recomendación menos chismoso

Investigadores del Instituto Tecnológico de Massachusetts (MIT) diseñaron un sistema de recomendación que ostenta dos ventajas, principalmente: respeta la privacidad de los usuarios y no precisa tecnologías súper robustas. Según dicen, es tan eficiente que puede ejecutarse en un celular incluso con conexión lenta.

“Nos enfocamos especialmente en la privacidad de los usuarios, pero los sistemas previamente utilizados necesitaban un gran ancho de banda y solucionamos ese problema”, dice Sacha Servan-Schreiber, autor principal del estudio dentro del MIT CSAIL, la división enfocada en computación e inteligencia artificial.

– ¿Cómo surgió la idea de crear este sistema? ¿Recordás el momento preciso del “eureka”?

– Trabajamos en esto durante un tiempo. Por un lado debíamos darnos cuenta cómo podría reducir la fuga de la base de datos a través de una aplicación específicamente diseñada para preservar la privacidad. Luego trabajamos para delimitar la fuga y hacer que el protocolo sea eficaz utilizando varios trucos, por ejemplo la recuperación de lotes parciales.

– Han enfatizado en la privacidad del método y también en que opera con pocos recursos. ¿Cómo lo lograron?

– Principalmente, porque evitamos las denominadas “comparaciones olvidadas”. Todavía necesitamos cálculos lineales para el conjunto de datos, pero concretamente nuestro cálculo es más eficiente. El rendimiento concreto es mucho mejor en comparación con otros métodos.

– También dicen que estas recomendaciones son más seguras ante posibles ataques informáticos. ¿Cómo es esto?

Los ataques a servidores y robos de información están fuera de nuestro modelo de amenazas y tienen soluciones estándar. Nuestro modelo sí protege contra el aprendizaje realizado por clientes maliciosos. También nos aseguramos de que un servidor malicioso no aprenda nada sobre la consulta del cliente.

Los algoritmos de recomendación que podemos definir como “tradicionales” operan con lo que se denomina “vecinos”. Es decir, encuentran datos cercanos (con atributos similares) a las consultas. Por ejemplo, en el caso de una plataforma de música las respuestas se apoyan, en parte, en un historial comprimido de los hábitos de escucha del usuario.

Amén de la complejidad y de ciertos tecnicismos, el secreto del sistema de recomendaciones propuesto por Servan-Schreiber y su compañero Simon Langowski se basa en el uso de dos servidores que acceden a una misma base de datos. Esto es más eficiente y además permite consultar información sin que se revele abiertamente aquello que se busca.

¿Los resultados? La técnica demostró su eficiencia y bajo consumo de ancho de banda incluso con bases de datos que contenían más de 10 millones de elementos. Además, lograron una precisión por encima dl 95% al encontrar esos “vecinos”, aunque con respeto por la privacidad.

¿Qué hay en el futuro para este desarrollo? Servan-Schreiber y Langowski prevén ajustar su técnica para aplicarla en situaciones del “mundo real” y garantizar que el usuario reciba los beneficios de la denominada “búsqueda del vecino” mientras el sistema (que es de código abierto) no usa sus datos para otros fines.

Gracias por calificar! Ahora puedes decirle al mundo como se siente a traves de los medios sociales.
Lo que acabo de ver es..
  • Raro
  • Asqueroso
  • Divertido
  • Interesante
  • Emotivo
  • Increible

DEJANOS TU COMENTARIO: