Microsoft AI crea voz real con solo 200 muestras de entrenamiento

Los algoritmos modernos para convertir texto a voz son increíblemente capaces. La evidencia más obvia es el reciente lanzamiento de Google de dos herramientas de código abierto llamadas SpecAugment y Translatotron. En particular, Translatotron puede traducir completamente las palabras de una persona a otro idioma mientras conserva la entonación y la entonación de la oración. Sin embargo, la creatividad de la tecnología es ilimitada y siempre hay espacio para cosas más extraordinarias.

Figura 1 Microsoft AI crea voz real con solo 200 muestras de entrenamiento

  1. El sistema de inteligencia artificial de Amazon ayuda a reducir los errores de reconocimiento de voz de Alexa en un 15 %

Un artículo reciente de los investigadores de IA de Microsoft titulado "Conversión casi incontrolada de texto a voz y reconocimiento automático de voz" describe un sistema de IA que facilita el aprendizaje descontrolado. Aprendizaje desatendido: una rama de las técnicas de aprendizaje automático que permite que la inteligencia artificial aprenda de los datos de prueba que no están etiquetados, clasificados o formateados. Si bien la precisión de comprensión de lectura de la IA de Microsoft alcanzó el 99,84 %, la capacidad de simular automáticamente el habla también se mejoró a 11,7. % Aún más impresionante, este modelo de aprendizaje automático avanzado solo necesita usar hasta 200 clips de audio y las conversaciones de voz correspondientes como entrada de aprendizaje.

La clave para desarrollar este modelo de IA es Transformers, una arquitectura neuronal construida por un equipo de científicos en Google Brain, la unidad de investigación de IA de Google, y descrita en un artículo técnico detallado en 2017. Como todas las demás redes neuronales profundas, los transformadores consisten en neuronas (funciones matemáticas modeladas "libremente" con respecto a las neuronas biológicas) dispuestas en capas que pueden conectarse entre sí para transmitir "señales" de los datos de entrada y lentamente. cada conexión (así es como el modelo extrae características y aprende a hacer predicciones). Sin embargo, los transformadores también tienen la función "única" de que cada elemento de salida estará conectado a todas las entradas y el cálculo de los pesos entre ellos es muy flexible.

Figura 2 Microsoft AI crea voz real con solo 200 muestras de entrenamiento

  1. El Instituto Tecnológico de Massachusetts está trabajando para desarrollar un modelo de IA que pueda conducir casi como un ser humano

Basándose en este hecho, los investigadores de Microsoft han incorporado componentes de Transformer en sus diseños de sistemas de IA, lo que hace posible capturar voz o texto como entrada o salida. Y los investigadores decidieron utilizar la fuente de datos LJSpeech disponible públicamente, que contiene 13.100 registros en inglés y los registros correspondientes (transcripciones), como datos de entrenamiento para el sistema de IA. Luego, el equipo seleccionó al azar 200 de los 13 100 fragmentos para crear un conjunto de datos de entrenamiento, y también reconstruyeron usando un componente de codificación que suprime automáticamente el ruido. Texto y palabras rotas.

Los resultados no estuvieron nada mal. Dado cada pequeño fragmento, los investigadores encontraron que funcionó mejor que el algoritmo básico utilizado en los experimentos. Algunas de las muestras resultantes sonaban muy artificiales.

Figura 3 Microsoft AI crea voz real con solo 200 muestras de entrenamiento

  1. La inteligencia artificial de Japón está creando modelos de moda virtuales hiperrealistas

En el futuro, los investigadores buscan eliminar todas las limitaciones de las técnicas de aprendizaje sin supervisión utilizando los métodos de excavación previa disponibles, utilizando grandes cantidades de datos textuales y palabras no relacionadas. "Para esta tarea, ofrecemos un enfoque casi desatendido de texto a voz y reconocimiento de voz automático, utilizando solo una pequeña cantidad de datos textuales y orales. Los enlaces y pequeñas cantidades de datos adicionales no se emparejan. Como se demostró experimentalmente Como se demostró, nuestros componentes de diseño son fundamentales para desarrollar la capacidad de traducir voz y texto con algunos datos emparejados de "representantes del equipo que saben".

  1. Google está lanzando un repositorio masivo de entrenamiento de IA que contiene más de 5 millones de fotos de 200,000 ubicaciones en todo el mundo.

Microsoft presentará los detalles del proyecto en la Conferencia Internacional de Aprendizaje Automático en Long Beach, California, del 10 al 15 de junio, y el equipo de investigación planea lanzar el código abierto en las próximas semanas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir
error: Content is protected !!