¿Qué es un modelo de bolsa de palabras?
Un modelo de bolsa de palabras es una representación simplificadora utilizada en el procesamiento del lenguaje natural y la recuperación de información. En este modelo, un texto se representa como una bolsa de sus palabras, sin tener en cuenta la gramática e incluso el orden de las palabras, pero manteniendo la multiplicidad.
Una aplicación de esta inteligencia artificial es el filtrado del correo electrónico. Se almacena el número de palabras idénticas. Éstas deben ser las palabras con mayor número de apariciones, no las más importantes, ya que "el", "la", "el" y "a", "uno" aparecen con frecuencia sin que estas palabras tengan mucha relevancia. A efectos de clasificación, se desarrollan alternativas supervisadas para obtener una etiqueta de clase de un documento.
Existe un modelo de bigramas en el que el texto se analiza en unidades. También se puede utilizar el hashing para ahorrar memoria. Además, existe un Filtro Bayes de spamdonde el mensaje de correo electrónico se divide en una colección desordenada de palabras de dos distribuciones de probabilidad. Una representa el spam y la otra los mensajes legítimos, denominados "jamón". Así pues, hay dos bolsas de palabras. Una bolsa se llena con palabras presentes en los mensajes de spam y la otra con palabras presentes en los correos legítimos.
¿Qué es una bolsa de palabras?
La bolsa de palabras es una forma determinada de extraer características de un texto que se utilizan para modelar ese texto con algoritmos de aprendizaje automático. Se trata de un método muy sencillo y flexible. Puede utilizarse de muchas maneras para extraer características de un documento.
Una bolsa de palabras es una representación de texto que describe la frecuencia de las palabras dentro de un documento. Por un lado, existe un vocabulario de palabras conocidas y, por otro, una medida de las palabras conocidas existentes. Este modelo se denomina de bolsa porque se omite el orden o la estructura de las palabras. Sólo se fija en si una palabra aparece, pero no en qué lugar del documento se encuentra.
¿Cómo se convierte el texto en vectores?
El modelado lingüístico y la clasificación de documentos pueden realizarse fácilmente utilizando modelos de bolsa de palabras. El aprendizaje automático no puede trabajar directamente con el texto sin formato, pero se realiza una conversión a números. Mediante el recuento de palabras y el hash, las frases pueden convertirse en vectores. El modelo de bolsa de palabras es uno de los métodos más conocidos para construir espacios de características. En el curso de este procedimiento se generan vectores de características.