¿Qué es Naive Bayes?

Naive Bayes es una herramienta probada en inteligencia artificial (IA) con la Clasificaciones puede hacerse. Así pues, el clasificador de Bayes es una técnica de aprendizaje automático. Los objetos, como los documentos de texto, pueden dividirse en dos o más clases. Mediante el análisis de datos de entrenamiento especiales en los que se dan clases correctas, el clasificador aprende. El clasificador Bayes ingenuo se utiliza cuando las probabilidades de las clases se hacen sobre la base de un conjunto de observaciones específicas.

El modelo se basa en el supuesto de que las variables son condicionalmente independientes en función de la clase. Para definir el clasificador de Bayes, se necesita una medida de costes que asigne costes a cada clasificación concebible. Un clasificador de Bayes es el clasificador que minimiza todos los costes derivados de las clasificaciones. La medida de coste también se denomina función de riesgo.

El clasificador de Bayes minimiza el riesgo de una decisión errónea y se define mediante el criterio de riesgo mínimo. Si se utiliza una medida de costes primitiva que incurra en costes prácticamente sólo en caso de decisiones erróneas, entonces un clasificador de Bayes minimiza la probabilidad de decisiones erróneas. Se dice entonces que el clasificador se define mediante el criterio del máximo a posteriori.

¿Cuáles son las aplicaciones de Naive Bayes?

El Bayes ingenuo se utiliza a menudo para clasificar el spam. Por ejemplo, los filtros de spam suelen utilizar el clasificador Bayes ingenuo. La variable de clase indica si un mensaje es spam o deseado. Todas las palabras del mensaje corresponden a las variables, y el número de variables del modelo viene determinado por la longitud correspondiente del mensaje.

¿Qué variantes hay disponibles?

Ahí está el:

  • Bayas ingenuas gaussianas
  • Bayas ingenuas multinomiales
  • Bernoulli Bayes ingenuo
  • Complemento Naive Bayes
  • Bayas ingenuas categóricas

¿Cómo funciona Naive Bayes?

La técnica utiliza todos los atributos dados. Hay dos supuestos sobre estos atributos. Por un lado, se supone que todos los atributos tienen la misma importancia. Por otro lado, los atributos son estadísticamente independientes, lo que significa que conocer un valor no dice nada sobre el valor de otro atributo. Sin embargo, esta hipótesis de independencia nunca es cierta. No obstante, este método funciona bien en la práctica. Además, puede funcionar bien con valores perdidos.

Un ejemplo es un conjunto de datos de entrenamiento sobre el tiempo y la posibilidad de practicar un deporte con buen tiempo. El primer paso consiste en convertir los datos en una tabla de frecuencias. A continuación, en el segundo paso, se genera una tabla de probabilidades buscando probabilidades como el tiempo nublado (0,29) y la probabilidad de jugar (0,64). En el tercer paso, se utiliza la ecuación de Naive Bayes para calcular la probabilidad posterior de cada clase. La clase con la probabilidad posterior más alta es el resultado de la predicción.