Redactar descripciones de productos lleva mucho tiempo, sobre todo para los proveedores que tienen una cartera de productos muy amplia. Sin embargo, para tener éxito en las ventas en línea, estos textos descriptivos son extremadamente importantes. El objetivo de este artículo es ilustrar, mediante un ejemplo concreto (casos de uso), cómo puede utilizarse la inteligencia artificial (IA) -en este caso en concreto: un modelo de PNL- para crear descripciones de productos. La tesis de máster "Generación de textos descriptivos comparando grandes modelos PNL preentrenados".presentado por el autor a la TU Munich.
Inhaltsverzeichnis
Lo primero es lo primero: ¿Qué es la PNL?
En general, la PNL (Procesamiento del Lenguaje Natural) se ocupa del procesamiento automático del lenguaje e incluye, por ejemplo, la traducción, el resumen y la generación de textos. La idea subyacente es construir una comprensión gramatical mediante el uso de modelos (lingüísticos) y, en última instancia, resolver tareas lingüísticas.
En este trabajo, esto se consigue introduciendo puntos clave, en los que la comprensión aprendida genera textos detallados. Por un lado, esto puede acelerar el proceso de creación de descripciones de productos y, por otro, puede automatizarse parcialmente.
Los ejemplos de aplicación son numerosos: el uso de modelos de PNL permite un diseño más individual de cartas o correos electrónicos o la promoción de productos mediante descripciones más individuales y específicas para cada cliente.
Esto puede ser útil para muchos grupos destinatarios: En cualquier organización, institución o autoridad donde se produzcan procesos repetitivos relacionados con textos, el uso de la IA (inteligencia artificial) puede facilitar y agilizar muchas cosas.
Automatización mediante PNL
El objetivo del trabajo subyacente era desarrollar modelos que formulen textos detallados a partir de puntos clave. Para resolver esta tarea, se utilizan extensos modelos lingüísticos preentrenados mediante el método de la Transferencia de conocimientos enseñados. En un siguiente paso, los resultados de los respectivos modelos utilizados se comparan mediante métricas de lenguaje matemático para evaluar el mejor modelo basado en los datos dados.
Para ello se utilizaron tres modelos preentrenados: GPT-2, T5 y BART de la Python Transformer Library, todos ellos desarrollados por la Empresa Huggingface.
La base de datos
Mediante web scraping, se extrajo información de varios miles de productos de un minorista en línea. De cada producto se extrajeron el título, la categoría, la subcategoría, las palabras clave de la descripción y el texto de la descripción. El título, la categoría y la subcategoría son relevantes para una asignación única. Los puntos clave, separados por punto y coma, representan la entrada posterior del modelo y el texto de descripción se utiliza como etiqueta para el texto que se va a generar.dos transformadores
Tres modelos, dos transformadores
Como ya se ha mencionado, los tres modelos GPT-2, T5 y BART el pitón Biblioteca de transformadores se utilizan. Éstas pueden dividirse en las dos zonas del "Modelo de lenguaje causal" y el "Modelo secuencia a secuencia" clasificar.
Por un lado, la "modelos lingüísticos "causales la siguiente palabra/token basándose en las palabras/tokens anteriores. El método de atención utilizado en el modelo se denomina aquí causal y centra la atención sólo en el pasado (véase (a) Atención causal). El modelo GPT-2 es uno de estos modelos.
Para el modelo GPT-2, es importante saber que el modelo aprende la estructura de entrada durante el entrenamiento. La entrada se estructura mediante fichas especiales, que se utilizan como caracteres para el esquema. Durante el proceso de prueba, el conocimiento entrenado permite crear nuevos textos (véase la fórmula 1).
Los dos métodos de atención subyacentes de los modelos lingüísticos "causales" y los modelos "secuencia a secuencia" se representan mediante un diagrama de token de entrada x_i y token de salida y_i.
Cada recuadro representa la conexión entre el token respectivo. Las casillas naranjas marcan qué información está disponible en cada momento, mientras que las transparentes representan la ausencia de conexión.
Por tanto, la atención causal sólo capta el pasado, mientras que la atención plena capta tanto el pasado como el futuro en cualquier momento.
Véanse las ilustraciones de [1].
Por otra parte, el "Modelos secuencia a secuencia una serie de palabras/tokens y emite otra serie de palabras/tokens. Se aplica una función de "enmascaramiento" a la secuencia de entrada y se "esconden" palabras/tokens detrás de máscaras, por así decirlo. Los modelos intentan predecir las palabras/tokens que podrían estar bajo esas máscaras.
Esta técnica permite al modelo desarrollar una comprensión de frases, o una especie de comprensión del lenguaje. En este caso, el método de "atención" subyacente es totalmente visible (véase (b) Atención plena). Entre estos modelos se encuentran el T5 y el modelo BART. La principal diferencia entre estos dos modelos es el uso del método de aprendizaje multitarea utilizado en el modelo T5. En este caso, se utiliza un prefijo adicional para definir la tarea del modelo. En ambos modelos, la entrada y la etiqueta se estructuran de forma similar. Una pequeña diferencia: en el modelo BART, se utiliza un token especial adicional para indexar el principio de la entrada y la etiqueta (véase la fórmula 2 y la fórmula 3).
En la biblioteca Transformer hay disponibles modelos de diferentes tamaños de los tres modelos preentrenados. Debido a la limitada potencia de cálculo, en este ejemplo se utilizaron versiones más pequeñas.
Evaluacionesmétricas - METEOR y BERTScore
Las métricas matemáticas de evaluación pueden determinar la similitud entre un texto generado y su texto de referencia. Se trata de un campo de investigación muy activo y existen muchas métricas diferentes que se centran en distintas características. En el trabajo subyacente, se consideraron dos métodos diferentes, cada uno con una métrica.
Un método es el Correspondencia de n-gramas con el ejemplo METEOR (Métrica de evaluación para la traducción con ordenación explícita). Se buscan y se cuentan los paralelismos entre el texto generado y el texto de la etiqueta. Con los recuentos absolutos, la métrica de puntuación puede calcularse mediante una media armónica (véase la figura 2).
Figura 2 La métrica METEOR se visualiza esquemáticamente con frases de ejemplo. Esta representación de la métrica METEOR se inspira en la representación de la arquitectura BERTScore de [2].
Otro método son los Métricas basadas en la incrustación. En este caso, los textos se evalúan desde una perspectiva independiente (neutral). En el ejemplo del BERTScore el texto generado y el texto de la etiqueta se incrustan en un espacio de alta dimensión, la incrustación del modelo BERT. A partir de los vectores de alta dimensión generados, puede calcularse la similitud entre cada palabra/token mediante la similitud coseno y puede generarse una puntuación final mediante la media armónica (véase la Figura 3).
Cada una de las dos métricas utilizadas tiene en cuenta otras características y, por tanto, puede ofrecer una evaluación detallada que sea una buena evaluación lingüística.
Figura 3 Cada paso del cálculo de la puntuación BERTScore se muestra esquemáticamente con frases de ejemplo. En el texto encontrará una explicación detallada. Véase la ilustración en [2].
Resultados - Modelo de rendimiento
Las dos métricas presentadas se aplicaron a los textos generados por los tres modelos diferentes y a su texto de etiqueta. Así se calculó una puntuación METEOR y una puntuación BERTScore para cada texto. Si se observa la media de las puntuaciones METEOR del conjunto de datos de entrenamiento en la Tabla 1, se puede concluir que la mayoría de los textos generados del modelo GPT-2 reciben puntuaciones más bajas que los de los modelos T5 o BART. Una conclusión análoga puede extraerse a partir de la media y la desviación estándar de los valores de BERTScore en la Tabla 2.
En resumen, los resultados muestran que, para el modelo GPT2, los textos generados son menos coherentes con los textos descriptivos desechados. Así pues, hay que dar preferencia a los dos modelos, el T5 y el BART, sobre la base del conjunto de pruebas. No obstante, también sería necesario el juicio de los lingüistas para hacer una afirmación general.
Conclusión y perspectivas
En este artículo (y en el trabajo subyacente) se han hecho muchas suposiciones que no son universalmente válidas. Para hacer una afirmación de validez general sobre el rendimiento del modelo que pudiera aplicarse en la práctica, habría que considerar otros puntos: Aquí habría que examinar más detenidamente la pertinencia de versiones más amplias del modelo o el cambio en las claves utilizadas. Además, una evaluación lingüística de los textos generados sería un paso importante para evaluar los resultados obtenidos de forma generalmente válida.
La ayuda de la IA a la creación de descripciones de productos tiene un gran potencial de futuro, especialmente en el comercio electrónico. Muchos procesos que requieren mucho tiempo pueden verse considerablemente facilitados por una IA eficaz. Sin embargo, los modelos aquí analizados no son (todavía) adecuados para su aplicación práctica.
Descargo de responsabilidad: Para crear este artículo no se ha utilizado ningún modelo de generación lingüística. 😊
Fuentes:
[1] C. Ra_el, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li y P. J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140):1{67, 2020.
[2] T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger e Y. Artzi. Bertscore: Evaluación de la generación de texto con Bert. En International Conference on Learning Representations, 2020.
0 comentarios