Technology

Perceiver AR: generación autorregresiva de contexto largo de propósito general

Written by Admin

En los últimos años, los transformadores autorregresivos han traído un flujo constante de avances en el modelado generativo. Estos modelos generan cada elemento de una muestra: píxeles en una imagen, caracteres en el texto (generalmente en fragmentos “simbólicos”), muestras en una forma de onda de audio, etc. – prediciendo un elemento tras otro. Al predecir el siguiente elemento, el modelo puede volver a los que se crearon anteriormente.

Sin embargo, cada una de las capas de un transformador se vuelve más costosa a medida que se utilizan más elementos como entrada, y los profesionales solo pueden permitirse entrenar transformadores profundos en secuencias de hasta aproximadamente 2048 elementos. Por lo tanto, la mayoría de los modelos basados ​​en Transformer ignoran todos los elementos más allá del pasado más reciente (alrededor de 1500 palabras o 1/6 de una imagen pequeña) al predecir.

Por el contrario, nuestro recientemente desarrollado Modelos perceptivos desempeñarse excelentemente en una variedad de tareas del mundo real con hasta aproximadamente 100,000 elementos. Los perceptores utilizan la atención cruzada para codificar entradas en un espacio latente, desacoplando los requisitos de cálculo de la entrada de la profundidad del modelo. Los receptores también gastan un costo fijo, independientemente del tamaño de entrada, en casi todas las capas.

Mientras que la codificación de espacio latente maneja todos los elementos en un solo paso, la generación autorregresiva asume que el procesamiento ocurre un elemento a la vez. Para resolver este problema, Perceiver AR ofrece una solución simple: alinee los elementos latentes uno por uno con los elementos finales de la entrada y enmascare cuidadosamente la entrada para que los elementos latentes solo vean los elementos anteriores.

Perceiver AR mapea una secuencia de entrada (P erceiver AR) en un pequeño espacio latente mediante atención cruzada para producir una latente para cada token de objetivo (se muestran 3 latentes, una para objetivos AR para min / A OF Ssecuencia). Estas latentes luego son procesadas por una pila profunda de capas de autoatención. Perceiver AR se puede entrenar para la generación autorregresiva de extremo a extremo, mientras se usan secuencias de entrada muy largas.

El resultado es una arquitectura (que se muestra arriba) que admite entradas hasta 50 veces más largas que los transformadores estándar, mientras se implementa tan ampliamente (y esencialmente con la misma facilidad) que los transformadores estándar de solo decodificador.

A medida que aumenta la longitud del contexto o el tamaño del modelo, aumenta la cantidad de computación necesaria para entrenar un modelo. Podemos cuantificar el presupuesto computacional para diferentes modelos midiendo su velocidad en hardware real (pasos por segundo en TPUv3), a medida que aumenta la longitud del contexto de entrada y el tamaño del modelo. A diferencia de otros modelos generativos como Transformer o Transformer-XL, Perceiver AR desacopla la longitud del contexto de entrada de la profundidad del modelo, lo que nos permite implementar fácilmente los modelos profundos necesarios para modelar secuencias largas en TPU o GPU de generación actual.

Perceiver AR escala significativamente mejor con el tamaño que los modelos Transformers y Transformer-XL estándar en un rango de longitudes de secuencia del mundo real. Esta propiedad nos permite construir modelos de contexto largo muy eficientes. Por ejemplo, encontramos que un Perceiver AR de 60 capas con una longitud de contexto de 8192 supera a un Transformer-XL de 42 capas en una tarea de generación de longitud de libro, mientras que funciona más rápido en términos reales.

En los puntos de referencia estándar de la industria de generación de imágenes de contexto largo (ImageNet 64×64), idioma (PG-19) y música (MAESTRO), Perceiver AR produce resultados líderes en la industria. Aumentar el contexto de entrada al desacoplar el tamaño de entrada del presupuesto computacional conduce a varios resultados intrigantes:

  • El presupuesto informático se puede escalar momento a momento, lo que nos permite gastar menos y degradar la calidad sin problemas o gastar más para mejorar la generación.
  • Un contexto más amplio permite que Perceiver AR supere a Transformer-XL, incluso gastando lo mismo en cómputo. Encontramos que un mayor contexto conduce a un mejor rendimiento del modelo, incluso a una escala asequible (parámetros ~ 1B).
  • La calidad de la muestra de Perceiver AR es mucho menos sensible al orden en que genera los elementos. Esto hace que Perceiver AR sea fácil de aplicar a parámetros que no tienen un orden natural de izquierda a derecha, como datos como imágenes, con una estructura que abarca más de una dimensión.

Usando un conjunto de datos de música de piano, entrenamos a Perceiver AR para generar nuevas pistas de música desde cero. Debido a que cada nueva nota se predice en función de la secuencia completa de notas anteriores, Perceiver AR puede producir pistas con un alto nivel de consistencia melódica, armónica y rítmica:

Recursos

Obtenga más información sobre el uso de Perceiver AR:

  • Descargue el código JAX para el entrenamiento de Perceiver AR en Github
  • Lea nuestro artículo sobre arXiv
  • Descubra nuestra presentación insignia en CIML 2022

Ver Google Magenta entrada en el blog con mas musica!

About the author

Admin

Leave a Comment