La visión por ordenador estudia cómo se pueden programar los ordenadores para comprender imágenes o vídeos digitales. La visión por ordenador es esencial en ámbitos como el reconocimiento de objetos y la conducción autónoma. Tanto en PNL así como en visión por ordenador han Enfoques de aprendizaje profundo demostró ser extremadamente eficaz. 

La percepción visual es uno de los procesos más complejos. Lo que para nosotros es tan sencillo y natural, sin que siquiera pensemos en ello, requiere el procesamiento constante de cantidades increíbles de datos. Utilizamos los ojos en todo lo que hacemos en la vida, y la visión es posiblemente el sentido más importante, y uno extremadamente sofisticado que tarda mucho tiempo en desarrollarse.  

Enseñar a un ordenador a ver como un ser humano lleva mucho tiempo en la mente de los investigadores. Aunque ya se habían producido avances y éxitos en este campo, el estado de la investigación cambió cuando se desarrollaron las redes neuronales artificiales (KNN). Gracias a su capacidad para modelar las relaciones complejas, propiciaron un salto de rendimiento en los campos del reconocimiento de objetos y la visión por ordenador.

Así, la creación de sistemas de IA ha hecho que, de repente, la automatización de tareas extremadamente complejas que parecían imposibles hace unos 20 años, como la conducción autónoma, entren en el reino de lo posible más pronto que tarde. 

Para nosotros, una imagen es la interacción de millones de entradas visuales y objetos cuyas interrelaciones conforman el todo y sólo entonces, en última instancia, tienen sentido para nosotros. Para un ordenador, una imagen no es más que otra serie de ceros y unos unidos de forma extraña. 

Por eso no es de extrañar que si entrenáramos, por ejemplo, un modelo lineal generalizado (MLG) para reconocer un objeto en una imagen, no llegaríamos muy lejos. Hay demasiadas correlaciones y su funcionamiento es demasiado difícil para que lo reconozca un modelo lineal.

Pero las redes neuronales profundas, con sus millones de neuronas y miles de millones de conexiones entre ellas, son capaces de ver a través de ese desorden. Su capacidad para generar y reconocer características abstractas en un conjunto de datos les permite reconocer bordes, rasgos y, en última instancia, objetos en una imagen.

Esto ha permitido importantes avances en visión por ordenador. Hoy en día, las redes neuronales se han entrenado para realizar tareas increíbles, como reconocer todos los tipos de imágenes de una fotografía o reconocer la orientación sexual de una persona a partir de sus rasgos faciales.