No me parece tan complicado viendo las cosas que ya hay hoy.
Voice-to-text → traducción → text-to-voice
Una IA que con Fourier pille el timbre del subnormal que hable y se lo aplicas al text-to-voice
Quitas el sonido del vídeo o lo dejas en segundo plano como en los documentales
Me parece mucho más sencillo que las locuras que veo por ahí de chats e imágenes.
Que se entienda la voz y que esta se reproduzca es ya una tarea casi trivial.
Es la traducción lo que todavía falla un poco. Muchas veces una misma frase se traduce de formas completamente distintas en función del contexto. Y hallar ese contexto es en lo que se tiene que trabajar desde la inteligencia artificial.
El otro día una amiga traductora me decía que precisamente por eso se había dado prisa en sacarse unas oposiciones porque se daba cuenta de que le quedaban cinco o seis años de carrera antes de que se popularizaran las IAs de traducción.
Esto se ha conseguido perfeccionar hace nada (aunque todavía no es en tiempo real)
Y teniendo en cuenta al ritmo exponencial que va la IA desde primavera del año pasado, dale unos pocos meses como mucho para la parte de texto a voz y sea todo en tiempo real
Exacto, las IA aun no pueden entender el contexto de una frase, más aún cuando esa misma frase puede tener distintos significados dependiendo de quien, cuando y como se diga.
No dudo que dentro de unos pocos años se pueda, pero por ahora ni de coña
Relacionado, aunque no es exactamente lo que dices. Esta opción de Google translate existe hace años, siempre me ha parecido útil pero nunca lo he usado en un escenario real.
Me da la impresión de que habláis más de oídas que otra cosa.
Estoy convencido que las historias del contexto y poyas así son eso, historias. Que hacer una traducción al 100% exacta es complicado no tengo dudas, los propios traductores humanos se equivocan continuamente cuando traducen en tiempo real (ved ruedas de prensa de futbol por ejemplo). Pero no me hace falta la perfección, me basta con un sistema 0.8 que vaya mejorando.