Com aprenen les màquines.

No es ningún secreto que el aprendizaje profundo necesita grandes volúmenes de datos. Grandes quiere decir más de un millón de imágenes de entrenamiento etiquetadas en ImageNet. ¿De dónde proceden todos esos datos? La respuesta es, por supuesto, que de ti y probablemente de todos tus conocidos. Las aplicaciones modernas de visión por ordenador solo son posibles gracias a los miles de millones de imágenes que los usuarios de internet suben y (a veces) etiquetan con un texto que identifica lo que aparece. ¿Alguna vez han subido una foto de un amigo a Facebook y la han comentado? Facebook se lo agradece. Esa imagen y ese texto pueden haber servido para entrenar su sistema de reconocimiento facial. ¿Alguna vez han subido una imagen a Flickr? En ese caso, es posible que su imagen forme parte del conjunto de entrenamiento de ImageNet. ¿Alguna vez han identificado una imagen para demostrar en una web que no son un robot? Esa identificación quizá ha ayudado a Google a etiquetar una imagen para usarla en el entrenamiento de su sistema de búsqueda de imágenes.

Las grandes empresas tecnológicas ofrecen muchos servicios gratuitos en el ordenador y el teléfono móvil: búsqueda en internet, videollamadas, correo electrónico, redes sociales, asistentes personales automatizados…, una lista interminable. ¿Qué salen ganando? Quizá han oído decir que su verdadero producto son sus usuarios (como usted y como yo); los clientes son los anunciantes que captan nuestra atención y adquieren información sobre nosotros mientras utilizamos estos servicios “gratuitos”. Pero hay una segunda respuesta: cuando utilizamos los servicios de empresas tecnológicas como Google, Amazon y Facebook, estamos proporcionando directamente a esas empresas ejemplos –imágenes, vídeos, mensajes de texto o voz– que pueden aprovechar para entrenar mejor sus programas de IA. Y esos programas mejorados atraen a más usuarios (y, por tanto, recogen más datos), lo que hace que los anunciantes puedan dirigir sus anuncios de forma más eficaz. Además, los ejemplos de entrenamiento que les proporcionamos pueden servir para entrenar y ofrecer a otras empresas servicios “de oficina”, como la visión por ordenador y el procesamiento del lenguaje natural, a cambio de dinero.

Se ha escrito mucho sobre la ética de estas grandes empresas que utilizan los datos que creamos nosotros (por ejemplo, todas las imágenes, los vídeos y los textos que colgamos en Facebook) para entrenar programas y vender productos sin decírnoslo ni compensarnos. Es un debate importante, pero se sale del ámbito de este libro.[8] Lo que me interesa aquí es que la dependencia de extensas colecciones de datos de entrenamiento etiquetados es una diferencia más entre el aprendizaje profundo y el aprendizaje humano.

Con la proliferación de sistemas de aprendizaje profundo en aplicaciones del mundo cotidiano, las empresas necesitan nuevos conjuntos de datos etiquetados para entrenar redes neuronales profundas. Un ejemplo destacable son los vehículos autónomos. Estos coches necesitan una visión por ordenador avanzada para reconocer los carriles de la carretera, los semáforos, las señales de stop y otros elementos, así como para distinguir y seguir la pista de distintos tipos de posibles obstáculos: otros coches, peatones, ciclistas, animales, conos de tráfico, cubos de basura volcados, matojos rodadores y cualquier otra cosa con la que no conviene chocar. Los coches autónomos tienen que aprender a identificar esos objetos –con sol, lluvia, nieve o niebla, de día o de noche– y a determinar cuáles pueden moverse y cuáles no. El aprendizaje profundo facilita esa tarea, al menos en parte, pero, como en otros ámbitos, necesita una enorme cantidad de ejemplos de entrenamiento.

Las empresas de vehículos autónomos recogen esos ejemplos de entrenamiento en un sinnúmero de horas de vídeo grabadas por cámaras desde coches que circulan en medio del tráfico de calles y carreteras. Los coches pueden ser prototipos de conducción autónoma que las empresas están probando o, en el caso de Tesla, coches conducidos por clientes que, al comprar un vehículo, tienen que aceptar una política de intercambio de datos con la empresa.[9]

Los propietarios de Tesla no tienen obligación de etiquetar todos los objetos que aparecen en los vídeos grabados por sus coches. Pero alguien tiene que hacerlo. En 2017, el Financial Times informó de que “la mayoría de las empresas que desarrollan esta tecnología emplean a cientos e incluso miles de personas, muchas veces en centros deslocalizados en India o China, cuyo trabajo consiste en enseñar a los coches robot a reconocer peatones, ciclistas y otros obstáculos. Los empleados marcan o “etiquetan” manualmente miles de horas de vídeo, a menudo fotograma a fotograma”.[10] Han nacido nuevas empresas que proporcionan el servicio del etiquetado de datos; por ejemplo, Mighty AI ofrece “los datos etiquetados que necesitas para entrenar tus modelos de visión por ordenador” y promete “anotadores conocidos, verificados y de confianza, especializados en datos de conducción autónoma”.

Melanie Mitchel, Las máquinas que aprenden, fronteraD 20/06/2024

Cercar en aquest blog

La pitxa un lio

Com aprenen les màquines.

Comentaris

Entrades populars d'aquest blog

L'argument de la simulació de Nick Bostrom.

Percepció i selecció natural 2.

Què volen els "teapartyers"?