Computer Vision untersucht, wie Computer programmiert werden können, um digitale Videos oder Bilder zu verstehen. Computer Vision ist in Bereichen wie der Objekterkennung und dem autonomen Fahren unerlässlich. Sowohl im NLP als auch bei Computer Vision haben sich Deep Learning Ansätze als äußerst leistungsfähig erwiesen.
Die visuelle Wahrnehmung ist einer der komplexesten Prozesse. Was für uns so einfach und selbstverständlich ist, ohne dass wir darüber nachdenken, erfordert die ständige Verarbeitung von unglaublichen Datenmengen. Wir benutzen unsere Augen bei allem, was wir im Leben tun, und das Sehen ist wohl der wichtigste Sinn – und ein extrem ausgeklügelter, der eine lange Entwicklungszeit benötigt.
Einem Computer beizubringen, so zu sehen wie der Mensch, beschäftigt die Forscher schon lange. Obwohl es bereits Fortschritte und Erfolge auf diesem Gebiet gab, änderte sich der Forschungsstand, als künstliche neuronale Netzwerke (KNN) entwickelt wurden. Dank ihrer Fähigkeit, die komplexen Zusammenhänge zu modellieren, führten sie zu einem Leistungssprung in den Bereichen Objekterkennung und Computer Vision.
So rückte plötzlich die Schaffung von KI-Systemen die Automatisierung extrem komplexer Aufgaben, die vor etwa 20 Jahren noch unmöglich erschienen, wie z.B. autonomes Fahren, eher früher als später in den Bereich des Möglichen.
Für uns ist ein Bild das Zusammenspiel von Millionen von visuellen Inputs und Objekten, deren Zusammenhänge das Ganze ausmachen und erst dann letztlich für uns Sinn ergibt. Für einen Computer ist ein Bild nur eine weitere Anordnung von Nullen und Einsen, die auf seltsame Weise zusammengesetzt sind.
Es ist also nicht überraschend, dass wir nicht sehr weit kommen würden, wenn wir, sagen wir, ein GLM (Generalisiertes lineares Modell) trainieren würden, um ein Objekt in einem Bild zu erkennen. Es gibt viel zu viele Zusammenhänge und sie funktionieren auf eine Weise, die zu schwierig ist, um von einem linearen Modell erkannt zu werden.
Aber tiefe neuronale Netzwerke mit ihren Millionen von Neuronen und Milliarden von Verbindungen zwischen ihnen sind in der Lage, ein solches Durcheinander zu durchschauen. Durch ihre Fähigkeit, abstrakte Merkmale in einem Datensatz zu erzeugen und zu erkennen, können sie Kanten, Merkmale und schließlich Objekte in einem Bild erkennen.
Dies hat bedeutende Fortschritte in der Computer Vision ermöglicht. Heute sind neuronale Netzwerke darauf trainiert worden, unglaubliche Aufgaben zu erfüllen, z. B. alle Arten von Bildern in einem Bild zu erkennen oder die sexuelle Orientierung einer Person anhand von Gesichtsmerkmalen zu erkennen.