Aprendizaje de transferencia con T5: transformador de transferencia de texto a texto

17/03/2020

machine-learning-tarragona-200317
En los últimos años, el aprendizaje por transferencia ha dado lugar a una nueva ola de resultados de última generación en el procesamiento del lenguaje natural (PNL).

La efectividad del aprendizaje de transferencia proviene de la capacitación previa de un modelo sobre datos de texto sin etiquetar (disponibles en grandes cantidades) con una tarea auto supervisada, como modelar el lenguaje o completar palabras faltantes. Después de eso, el modelo se puede ajustar en conjuntos de datos etiquetados más pequeños, lo que a menudo resulta en un rendimiento (mucho) mejor que el entrenamiento solo en los datos etiquetados.

Los modelos GPT, ULMFiT, ELMo y BERT encendieron el éxito reciente del aprendizaje de transferencia en 2018, y en 2019 se desarrolló una gran diversidad de nuevos métodos como XLNet, RoBERTa, ALBERT, Reformer y MT-DNN. La tasa de progreso en el campo ha dificultado evaluar qué mejoras son más significativas y también conocer qué tan efectivas son cuando se combinan.

Google ha presentado un nuevo modelo que ha llamado el "transformador de transferencia de texto a texto" (Text-To-Text Transfer Transformer en inglés) que ha denominado como T5. También ha presentado un nuevo conjunto de datos de pre-entrenamiento de código abierto, llamado Colossal Clean Crawled Corpus (C4).

El modelo T5, pre-entrenado en C4, logra resultados de vanguardia en muchos puntos de referencia de PNL a la vez que es lo suficientemente flexible como para ajustarse a una variedad de tareas importantes posteriores.
 

Un marco de texto a texto compartido

Con T5, puedes enmarcar todas las tareas de PNL en un formato de texto a texto unificado donde la entrada y la salida son siempre cadenas de texto, en contraste con los modelos de estilo BERT que solo pueden generar una etiqueta de clase o un tramo de la entrada.

El marco de texto a texto de T5 te permite usar el mismo modelo, función de pérdida e hiperparámetros en cualquier tarea de PNL, incluida la traducción automática, el resumen de documentos, la respuesta a preguntas y las tareas de clasificación (por ejemplo, análisis de opinión). Incluso puedes aplicar T5 a tareas de regresión entrenándolo para predecir la representación de cadena de un número en lugar del número en sí.
 

El conjunto de datos de pre-entrenamiento (C4)

Un componente muy importante para el aprendizaje de transferencia es el conjunto de datos sin etiquetar utilizado para el pre-entrenamiento. Para medir con precisión el efecto de aumentar la cantidad de entrenamiento previo, se necesita un conjunto de datos que no solo sea de alta calidad y diverso, sino también masivo.

Los conjuntos de datos previos al entrenamiento existentes no cumplen con estos tres criterios: por ejemplo, el texto de Wikipedia es de alta calidad, pero de estilo uniforme y relativamente pequeño, mientras que los datos recogidos de la web de Common Crawl son enormes y muy diversos, pero de bastante baja calidad.

Para satisfacer los requisitos de trabajar con un modelo como T5, Google ha desarrollado el Colossal Clean Crawled Corpus (C4), una versión limpia de Common Crawl que es dos órdenes de magnitud más grande que Wikipedia. El proceso de limpieza implicó la eliminación de duplicados, descartar oraciones incompletas y eliminar contenido ofensivo o ruidoso.

Este filtrado condujo a mejores resultados en las tareas posteriores, mientras que el tamaño adicional permitió que el tamaño del modelo aumentara sin sobreajustar durante el entrenamiento previo.
 

Metodología de aprendizaje de transferencia

Con el marco de texto a texto T5 y el nuevo conjunto de datos de pre-entrenamiento C4, Google ha estudiado un amplio campo de ideas y métodos introducidos para el aprendizaje de transferencia de PNL en los últimos años, incluidos experimentos sobre:
  • Arquitecturas de modelos: los modelos de codificador-decodificador generalmente superaron a los modelos de lenguaje "solo de decodificador".
  • Objetivos de pre-entrenamiento: los objetivos de eliminación de ruido de relleno en blanco (donde el modelo está entrenado para recuperar palabras faltantes en la entrada) funcionaron mejor y que el factor más importante fue el costo computacional.
  • Conjuntos de datos sin etiquetar: la capacitación en datos dentro del dominio puede ser beneficiosa, pero que la capacitación previa en conjuntos de datos más pequeños puede conducir a un sobreajuste perjudicial.
  • Estrategias de capacitación: el aprendizaje multitarea podría ser cercano a la competencia con un enfoque previo al entrenamiento y luego al ajuste fino, pero requiere elegir cuidadosamente con qué frecuencia se entrena el modelo en cada tarea.
 

Artículos relacionados

0 comentarios