¿Te perdiste una sesión en el Data Summit? Ver bajo demanda aquí.
“Correcto. Conversaciones como esta pueden ser intensas. No olvides al humano detrás de la pantalla”.
El aviso de diálogo de Twitter es el último de una larga batalla para ayudarnos a ser más civilizados unos con otros en línea. Quizás lo más preocupante es el hecho de que formamos modelos de lenguaje de IA a gran escala con datos de conversaciones en línea a menudo tóxicas. No es de extrañar que veamos el prejuicios reflejados en nosotros en lenguaje generado por máquina. ¿Qué pasa si, mientras estamos construyendo el metaverso, en realidad la próxima versión de la web, usamos IA para filtrar el diálogo tóxico para siempre?
¿Un Facetune para el idioma?
En este momento, los investigadores están haciendo mucho con los modelos de lenguaje de IA para optimizar su precisión. En los modelos de traducción multilingüe, por ejemplo, un ser humano en el circuito puede marcar una gran diferencia. Los editores humanos pueden verificar que los matices culturales se reflejen correctamente en una traducción y entrenar efectivamente el algoritmo para evitar errores similares en el futuro. Piense en los humanos como una puesta a punto de nuestros sistemas de inteligencia artificial.
Si imagina el metaverso como una especie de ampliación SimCity, este tipo de traducción impulsada por IA podría convertirnos a todos en multilingües al instante cuando hablamos entre nosotros. Una sociedad sin fronteras podría nivelar el campo de juego para las personas (y sus avatares) que hablan idiomas menos comunes y potencialmente promover una mayor comprensión intercultural. También podría abrir nuevas oportunidades para el comercio internacional.
Existen serios problemas éticos que surgen del uso de la IA como Facetune para el lenguaje. Sí, podemos introducir algún control sobre el estilo del lenguaje, reportar casos donde los modelos no funcionan como se esperaba, o incluso cambiar el significado literal. Pero, ¿qué tan lejos es demasiado lejos? ¿Cómo podemos continuar promoviendo la diversidad de opiniones mientras limitamos el discurso y el comportamiento abusivos u ofensivos?
Un marco para la equidad algorítmica
Una forma de hacer que los algoritmos lingüísticos sean menos sesgados es usar datos sintéticos para la formación además de utilizar la Internet abierta. Los datos sintéticos se pueden generar sobre la base de conjuntos de datos “reales” relativamente pequeños.
Se pueden crear conjuntos de datos sintéticos para reflejar la población del mundo real (no solo los más ruidosos en Internet). Es relativamente fácil ver dónde están fuera de control las propiedades estadísticas de un conjunto de datos determinado y, por lo tanto, dónde podrían distribuirse mejor los datos sintéticos.
Todo lo cual plantea la pregunta: ¿Serán los datos virtuales una parte clave para hacer que los mundos virtuales sean justos y equitativos? ¿Nuestras decisiones en el metaverso también podrían tener un impacto en cómo pensamos y hablamos entre nosotros en el mundo real? Si el juego final de estas decisiones tecnológicas es un discurso global más civilizado que nos ayude a entendernos, los datos sintéticos podrían valer su peso algorítmico en oro.
Por muy tentador que sea pensar que podemos presionar un botón y mejorar el comportamiento para construir un mundo virtual con una imagen completamente nueva, no es solo una cuestión que deben decidir los tecnólogos. No está claro si las empresas, los gobiernos o los individuos controlarán las reglas que rigen la equidad y las normas de comportamiento en el metaverso. Con una gran cantidad de intereses en conflicto en la mezcla, sería prudente escuchar a los principales expertos en tecnología y defensores de los consumidores sobre cómo proceder. Tal vez sea Blue Sky quien piensa que está asumiendo que habrá un consorcio para la colaboración entre todos los intereses en competencia, pero es imperativo crear uno, para tener una discusión imparcial sobre el lenguaje de la IA ahora. Cada año de inactividad significa que docenas, si no cientos, de metaversos tendrían que adaptarse para cumplir con cualquier estándar potencial. Estos problemas relacionados con lo que significa tener un ecosistema virtual verdaderamente accesible requieren discusión ahora antes de que haya una adopción masiva del metaverso, que estará aquí antes de que nos demos cuenta.
Vasco Pedro es cofundador y director ejecutivo de la plataforma de operaciones lingüísticas impulsada por IA Unbabele. Ha dedicado más de una década a la investigación académica centrada en las tecnologías del lenguaje y anteriormente trabajó en Siemens y Google, donde ayudó a desarrollar tecnologías para comprender mejor el lenguaje y la computación de datos.
Tomadores de decisiones de datos
¡Bienvenido a la comunidad VentureBeat!
DataDecisionMakers es el lugar donde los expertos, incluidos los ingenieros de datos, pueden compartir ideas e innovaciones relacionadas con los datos.
Si desea leer ideas de vanguardia e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.
¡Incluso podría considerar contribuir con su propio artículo!
Leer más de DataDecisionMakers