El machine learning requiere grandes cantidades de datos para el aprendizaje. Sin embargo, el hecho de que a menudo esos datos estén alojados en servicios cloud gestionados por gigantes como Amazon y Google, puede dejarlos expuestos a amenazas de seguridad. ¿Podemos usar machine learning como servicio (MLaaS) y garantizar la privacidad?
El machine learning es una de las disciplinas más candentes en la actualidad. De hecho, muchos proveedores cloud están haciendo negocio e incrementando rápidamente su negocio en machine learning as a service (MLaaS). Pero estos servicios vienen con una advertencia: todos los datos de aprendizaje deben revelarse al operador del servicio. Incluso si el operador del servicio no tiene acceso a los datos, alguien con malas intenciones sí puede hacerlo. O pueden haber razones legales para preservar su privacidad, como con los datos relacionados con la salud.
En un informe reciente, Tyler Hunt, de la Universidad de Texas, presenta un sistema que preserva la privacidad mientras permite el uso de MLaaS en la nube. Si bien es posible que los usuarios no deseen revelar sus datos de capacitación, los proveedores de servicios tienen sus propios problemas de privacidad. Por lo general no permiten que los clientes vean los algoritmos que hay bajo su tecnología MLaaS.
El objetivo que hay detrás de todo esto es proteger los datos de capacitación del usuario, pero puede darse el caso de que el atacante sea propietario y operador, un administrador curioso o malicioso, o un invasor que se haya hecho con el control de sistema operativo o del hipervisor. El atacante puede incluso ser un desarrollador de un sistema operativo y añadir una funcionalidad que registra los inputs del usuario.
Seguridad desde el primer nivel
A pesar de todas estas posibles amenazas de seguridad en machine learning, también hay que tener en cuenta la importancia de trabajar con el hardware subyacente.
Y es que, por ejemplo, SGX (Software Guard Extensions) no está a pruebas de balas. En particular, la unidad de monitorización del rendimiento de Intel permite a plataforma que no es de confianza analizar a fondo lo que está haciendo. La actual especificación para SGX permite que el software pueda manipular las páginas de las tablas para ver su código y rastreo de datos, lo que puede llevar a ataques devastadores.
Por tanto, la implementación actual está lejos de ser ideal para que los fabricantes de GPUs también empiecen a tomarse en serio la seguridad.
En la actualidad, ante el crecimiento imparable del volumen de datos hay millones de agujeros de seguridad explotables de mil formas. La seguridad perfecta no parece probable pero se puede mejorar. Dificultando la acción de los ciberdelincuentes, se deja el espacio para hacer uso de grandes herramientas.