¿Sabía que el primer Porsche, el modelo P1 de 1898, era un coche eléctrico? Tenía una autonomía de 79 km y desde entonces ha caído en el olvido mientras prevalecía la tecnología de combustión. ¿Y sabía que nuestros antepasados cultivaban sus campos de forma mucho más eficiente de lo que es posible con los métodos agrícolas modernos? Hoy en día, la agricultura se caracteriza por los monocultivos y el uso excesivo de fertilizantes y pesticidas, lo que provoca la degradación de los suelos, la malnutrición y la aceleración del cambio climático.
Sólo recientemente hemos empezado a cuestionar esta evolución. Lo que podemos aprender de nuestras experiencias es a inspirarnos más en la naturaleza, y así encontrar respuestas más sostenibles.
En estos momentos, estamos viviendo un gran revuelo en torno a la IA profunda. Los expertos del sector creen que, gracias a la IA, la La economía mundial crecerá 15 billones de dólares en 2030 podría. Según las últimas previsiones de IDC, el gasto mundial en IA se duplicará hasta alcanzar los 110.000 millones de dólares en los próximos cuatro años. Los costes energéticos del aprendizaje profundo se multiplicaron por 300.000 entre 2012 y 2018. El modelo lingüístico más innovador de 2019 tenía 1.500 millones de parámetros. La versión de 2020 tiene 175.000 millones de parámetros. ¿Qué será lo próximo?
¿Hay un final, un límite, o estamos a punto de cometer el mismo error siguiendo otro bombo insostenible? Tenemos que buscar enfoques fundamentalmente diferentes para la IA.
Inhaltsverzeichnis
Inteligencia ordinaria para una inteligencia general artificial
En una entrada del blog del año pasado, esbozábamos los hitos en el camino hacia la "verdadera inteligencia artificial", una Inteligencia Artificial General (AGI) - discutido.
Las soluciones utilizadas en la industria para inteligencia artificial suelen denominarse "IA estrecha". Normalmente sólo pueden realizar una tarea. En cambio, una red neuronal natural como el cerebro humano es universal. Una misma red puede realizar un número infinito de tareas. Los cerebros pueden reconocer y asumir dinámicamente nuevas tareas que se ajusten al contexto.
En el camino hacia una IA más general, es importante ser consciente de las diferencias entre las redes neuronales artificiales y las biológicas. Los posibles escollos de estas comparaciones se debatirán en artículos posteriores. Por ahora, cuestionemos la idea ampliamente aceptada de escalar los enfoques existentes y exploremos alternativas.
Escalar no es la solución
Es posible que haya oído hablar de los modelos GPT (Generative Pre-Trained Transformer Models) de OpenAI oído. Los 175.000 millones de parámetros de la última versión, GPT-3, se entrenaron con una cantidad increíblemente grande de datos de texto (la Wikipedia en inglés representa sólo 0,6 % de ellos). En el momento de su lanzamiento, el modelo causó sensación en los medios de comunicación por sus sorprendentes propiedades.
Ante estos avances, la tentación de creer que más es siempre mejor es grande. Cada vez se entrenan redes más grandes con más datos. La principal justificación para seguir por este camino es que la ampliación ha funcionado hasta ahora.
Sin embargo, parece que nos estamos montando en un bombo que se autoperpetúa. Los modelos actuales son cada vez más grandes porque "podemos hacerlo". Sabemos cómo escalarlos. Sabemos cómo entrenarlos. Cada vez disponemos de equipos más potentes. Y se invierte dinero para avanzar aún más. Uno se acuerda de las tendencias de alta tecnología en la agricultura, como el cultivo moderno de monocultivos para obtener mayores rendimientos de cosechas rentables que acaban agotando el suelo. Pero la cosecha no escala con el tiempo. Y, sin embargo, estas prácticas insostenibles están muy extendidas y el problema pasa en gran medida desapercibido. Un reciente documental de Netflix titulado "Kiss the ground" intenta arrojar algo de luz sobre el asunto.
Del mismo modo, un documento de 2019 del Allen Institute for AI señala la rendimientos decrecientes del tamaño del modelo en todas las subáreas de la IA. Muchos de los nodos añadidos a las redes no se utilizan después del entrenamiento: sólo aumentan la flexibilidad durante el mismo. Del mismo modo, la mayoría de las neuronas y conexiones del cerebro de los niños en edad de crecimiento se crean a medida que experimentan el mundo. En cambio, las sinapsis y los cuerpos celulares no utilizados en los cerebros se eliminan y se reciclan (véase el vídeo a continuación). Por tanto, sólo las partes esenciales de la red consumen energía. Este no es el caso del aprendizaje profundo clásico no adaptativo, en el que las dimensiones de una red permanecen fijas una vez establecidas.
Aunque los modelos pueden haber ganado un tanto por ciento en precisión y rendimiento, su consumo de energía ha aumentado desproporcionadamente. Esto ha ocurrido a pesar de que el hardware informático se ha vuelto más eficiente. El coste de investigar y entrenar un modelo lingüístico de última generación como Transformador BERT equivalen al coste de un avión 747 que vuele de Nueva York a San Francisco. Para ponerlo en perspectiva: Eso equivale aproximadamente a la misma cantidad de CO² que emiten cinco coches medios a lo largo de su vida útil (incluido el combustible). El Departamento de Energía de EE.UU. calcula que los centros de datos representan aproximadamente el 2% del consumo total de energía del país. Esto equivale prácticamente al consumo eléctrico del sector agrícola y diez veces al del transporte público.
Hoy en día, esta energía procede principalmente de fuentes de energía tradicionales. Las grandes empresas tecnológicas son conscientes de este problema. Google, Microsoft, Amazon y Facebook afirman ser neutras en carbono o incluso estar en camino de tener emisiones negativas. Es importante señalar que su objetivo no es utilizar menos energía, sino una energía más limpia. Lo que estamos viendo es simplemente una creciente demanda de energía en este ámbito. Y la cantidad de energía verde disponible sigue siendo limitada (entre 11 % y 27 % del mix mundial de generación eléctrica). Para más cifras sobre los costes medioambientales de la IA, véase la revista WIRED y MIT Technology Review. El DIN Deutsches Institut für Normung e. V. y el Ministerio Federal alemán de Economía y Energía, en colaboración con 300 expertos, han publicado una guía actual del sector. No es de extrañar que la guía afirme que "debe garantizarse que se elige la variante de análisis más eficiente desde el punto de vista energético".
Por supuesto, no debemos olvidar que la IA también contribuye al ahorro energético al permitir procesos más eficientes. Un ejemplo del uso rentable de la IA para ahorrar energía son los edificios inteligentes. La IA puede contribuir en gran medida a una mayor sostenibilidad si se utiliza correctamente, teniendo en cuenta los aspectos medioambientales, económicos y sociales.
El éxito de la ampliación de GPT-2 a GPT-3 desencadenado predicciones generalizadas sobre cuándo alcanzaremos la inteligencia general artificial. Tales tesis se basan a menudo en suposiciones falsas y comparaciones engañosas con los números de la naturaleza. Esto llevó a la leyenda del aprendizaje profundo Geoffrey Hinton (UCL) a bromear en Twitter:
¿Qué entendemos realmente?
Es raro que los científicos de datos diseñen y entrenen un modelo de red neuronal complejo sin ensayo y error.
A medida que aumenta el tamaño y la cantidad de datos de entrenamiento generalizados, la intuición que subyace a estos modelos se pierde cada vez más. Sus creadores suelen sorprenderse de los resultados de su propio modelo, ya sean malos o buenos. Claro que se pueden escribir fórmulas. Se pueden dibujar diagramas, e incluso podemos tener una vaga idea del flujo de información y de las transformaciones que tienen lugar. También podemos montar con bastante éxito diferentes redes en las que tengamos una idea de lo que ocurre. Pero predecir qué arquitectura de modelo es la mejor para una tarea concreta resulta cada vez más difícil a medida que crecen los modelos y los conjuntos de datos.
Desde este punto de vista, no es sorprendente que los resultados del modelo GPT-3 fueran tan sorprendentes. Su arquitectura es muy compleja y sus datos de entrenamiento extremadamente inespecíficos, por lo que no existe una comprensión intuitiva clara de dicho modelo.
Aunque el resultado puede ser sorprendente, en última instancia es "sólo" un modelo "normal" sin magia y ni siquiera se acerca a lo que puede hacer un cerebro humano. Se entrenó sin más objetivo que producir una secuencia coherente de palabras, por lo que sus resultados son impredecibles. Lo mismo ocurre con los métodos de aprendizaje no supervisado en general. Sobre todo cuando se aplican a datos masivos no estructurados.
Esto plantea una cuestión fundamental: Dado el éxito de la GPT-3, ¿necesitamos comprender plenamente todos los elementos de un modelo? Parece haber consenso en este campo: La comprensión es algo "bueno de tener", pero no esencial para las aplicaciones de la IA. Así lo expresan las dos primeras palabras de la siguiente cita de Terrence Sejnowski, coinventor de la máquina de Boltzmann:
"Quizá algún día un análisis de la estructura de las redes de aprendizaje profundo conduzca a predicciones teóricas y revele conocimientos profundos sobre la naturaleza de la inteligencia". - Terrence J. Sejnowski
Se inventan grandes trucos para aumentar la precisión de un modelo sin saber realmente por qué funcionan. Por ejemplo, el grupo de investigación de Microsoft se propuso recientemente resolver "tres misterios del aprendizaje profundo". Las explicaciones sobre el éxito de los métodos se ofrecen a posteriori, mucho después de que hayan estado en uso. Esto es típico de la industria.
Otra estrategia típica en Aprendizaje profundo es inflar las arquitecturas existentes y utilizar más datos para el entrenamiento (como en el desarrollo de GPT-2 a GPT-3). A menudo, el lema es "¡Pruébalo!". En el caso de GPT-3, esto dio como resultado que -aunque su arquitectura modelo no proporciona una base para una comprensión adecuada (como sería necesaria para la inteligencia general artificial)- es capaz de imitar muy bien el comportamiento de escritura de los humanos gracias a la enorme cantidad de datos. Esto se debe a que el enorme corpus de texto proporcionado para el entrenamiento contiene una descripción para casi todo.
Dado el atractivo de estos enfoques, no es de extrañar que en la práctica apenas veamos arquitecturas de red que sean fundamentalmente diferentes. Los modelos que no son diferenciables están infrarrepresentados. En tales modelos, no se pueden calcular las aproximaciones que conducen a una solución óptima. Entrenar los parámetros de tales redes es, de nuevo, como hacer conjeturas a ciegas.
Incluso se afirma que GPT-3 ha aprendido aritmética. Sí, puede hacer algunos cálculos sencillos, como los que se encuentran en los datos de entrenamiento. Incluso puede generalizar los conceptos hasta cierto punto. Sin embargo, el objetivo de GPT-3 era aprender la estructura de probabilidad conjunta de un conjunto de textos de gran tamaño. Un matemático sabe con certeza que el resultado es 123 (con una probabilidad de 100%) si es 12345.678/12344.678 calculado. Un modelo generativo como GPT-3 sólo puede adivinar el resultado con una incertidumbre residual. Hace la mejor estimación posible. Incluso es probable que sugiera un resultado completamente distinto en este caso. Es posible que no haya visto estas cifras antes. Por lo tanto, la distribución de probabilidad conjunta de esta entrada no está adecuadamente representada. La entrada no puede relacionarse con el resultado correcto.
No es de extrañar que el revuelo en torno a este modelo haya llevado incluso al director general de openAI a intervenir:
Existen alternativas
Neuronas bajo fuego
La inmensa mayoría de las redes neuronales utilizadas en el aprendizaje automático y la IA consisten en neuronas muy simplificadas. En cambio, los llamados modelos de neuronas con picos intentan imitar con mayor rigor a las neuronas biológicas, lo que conlleva una mayor complejidad. Esta complejidad, a su vez, permite funcionalidades más ricas y cálculos más potentes. Uno de los modelos más sencillos y conocidos de neuronas con espigas es el de fugas, integración y disparo. Con los avances tecnológicos en la implementación de este tipo de modelos directamente en hardware, es casi seguro que oiremos hablar más de este tipo de modelos neuronales.
Cálculo de reservas
En algunos ámbitos de la IA, la computación de reservorio es un enfoque prometedor. En pocas palabras, este enfoque explota la complejidad de los sistemas dinámicos altamente no lineales, como las redes neuronales recurrentes con parámetros fijos. La introducción secuencial de datos en un sistema de este tipo desencadena un comportamiento resonante. Es como el impacto de una piedra o una gota de lluvia en la superficie de un pequeño estanque. O la creación de un eco en una cueva. Las reacciones de estos sistemas son difíciles de predecir.
Aunque la mayor parte de la red parece estar haciendo tonterías caóticas, una parte del sistema puede estar haciendo algo tan complejo como el análisis de frecuencias. Otra parte puede estar haciendo suavizado o clasificación.
La computación de reservorio ni siquiera intenta entrenar los parámetros de tales sistemas. En su lugar, aprende dónde encontrar la computación interesante dentro de esos sistemas. Esto es muy prometedor, teniendo en cuenta el tiempo que se dedica actualmente a entrenar los parámetros de las redes. Además, ni siquiera es necesario simular las redes. Podemos -o podríamos- utilizar sistemas físicos como un simple cubo de agua. Dado que no es necesario hacer funcionar enormes clusters de ordenadores para aprender las redes, la computación de reservorio puede funcionar con un consumo mínimo de energía. Aún no está claro cómo maximizar el potencial de este enfoque, pero el campo está evolucionando.
Deja que el mono diseñe el modelo
Un enfoque fundamentalmente diferente pero prometedor que ganará atención el año que viene es la Búsqueda de Arquitectura Neuronal (NAS) y técnicas afines. Aquí se prueban muchas arquitecturas de red diferentes y luego sólo se seleccionan las mejores opciones. La forma en que se construyen las arquitecturas puede ser completamente aleatoria y aun así dar muy buenos resultados. Es como si un mono sentado frente a un ordenador diseñara la próxima arquitectura rompedora. Esto es lo que informan los autores de un artículo de Facebook de 2019:
"Los resultados son sorprendentes: varias variantes de estos generadores aleatorios producen instancias de red que tienen una precisión competitiva en la referencia ImageNet. Estos resultados sugieren que los nuevos esfuerzos centrados en el diseño de mejores generadores de redes pueden conducir a grandes avances al explorar espacios de búsqueda menos restringidos con más margen para diseños novedosos." - (Xie et al. 2019Facebook AI Research)
Por supuesto, también podemos educar al mono para que escriba menos al azar. Una estrategia de búsqueda que resulta útil en este contexto es la clase de los algoritmos evolutivos.
Modelos más inteligentes
Investigadores de Boston y Zúrich dieron a conocer hace unos meses una idea prometedora: las redes Shapeshifter. En lugar de reutilizar neuronas dentro de una red como en los cerebros, proponen reutilizar al menos algunas de las conexiones entre neuronas. Esto puede reducir drásticamente el número efectivo de parámetros que hay que aprender: Crean modelos potentes aunque sólo utilicen 1% de los parámetros de los modelos existentes. Esto, a su vez, conlleva una reducción del tiempo de entrenamiento y del consumo de energía.
¿Almuerzo gratis en el fondo?
Hemos presentado varias estrategias alternativas de IA. Sin embargo, es importante señalar que no existe una solución universal para todos los problemas de optimización. Este teorema se conoce como el problema de no almorzar gratis (NFLP) del aprendizaje automático. Los métodos de aprendizaje profundo pueden utilizarse a menudo de forma bastante universal. No obstante, el teorema sigue siendo válido.
Atascado en el valle más profundo
En el futuro, el debate sobre enfoques alternativos al aprendizaje automático tradicional se guiará por una idea clave de la biología: No existe una solución óptima cuando se trata de interactuar con una realidad física increíblemente compleja y dinámica. La evolución no se enfrenta a la NFLP porque no trabaja hacia una solución óptima. Sin embargo, es el camino más exitoso hacia la inteligencia que hemos descubierto hasta ahora.
La biología aprovecha la existencia de varias soluciones subóptimas. De este modo, es posible saltar de una a otra, que es lo que hace posible, en primer lugar, la acción flexible de los seres vivos. Así funcionan también las nanomáquinas que componen nuestro cuerpo. Por ejemplo, observe la apertura y cierre del canal iónico de una neurona biológica en la Figura 6.
Si todo se moviera únicamente hacia un óptimo global, desaparecería todo impulso. Tomemos nuestro cuerpo como otro ejemplo: estaría estancado en una postura óptima mientras no hubiera cambios significativos en el entorno que desplazaran el óptimo y desencadenaran una nueva búsqueda del mismo. Un mundo cambiante simplemente no puede ser descrito por una matriz de pesos fija que ha sido entrenada para realizar sólo un número finito de tareas.
Actualmente, la industria aborda este problema con enfoques de aprendizaje activo y adaptativo, en los que las ponderaciones se actualizan continuamente en función de las nuevas experiencias. Sin embargo, todavía no se tiene realmente en cuenta el salto repentino de una configuración (solución subóptima) a otra, provocado por el cambio de circunstancias. En su lugar, se entrenan subredes con un número masivo de nodos para cada una de las posibles circunstancias (que podríamos denominar diferentes tareas). Pero, como hemos visto, cultivar redes cada vez más grandes no es la única solución. Sería más elegante que los sistemas de IA pudieran detectar y responder a las circunstancias cambiantes. Especialmente en el contexto de la hiperautomatización, que Gartner ha identificado como una de las actuales Principales tendencias tecnológicas se ha identificado. Los sistemas de IA deben poder cambiar automáticamente la configuración de su arquitectura actual. O incluso para cambiar dinámicamente la lectura de su depósito computacional. Como en la naturaleza.
Tarde o temprano, por tanto, probablemente debamos despedirnos de la idea de aprender los pesos óptimos de una red neuronal. Tales parámetros sólo pueden optimizarse en condiciones estables.
No está mal desconfiar de los enfoques dominantes. Geoffrey Hinton incluso anima a pensar con originalidad:
"El futuro depende de algún estudiante de doctorado que desconfíe profundamente de todo lo que he dicho... Mi opinión es tirarlo todo por la borda y empezar de nuevo". (Geoffrey Hinton, UCL)
Se necesitan nuevos indicadores de resultados
Normalmente, una red neuronal artificial se evalúa en función de su precisión (u otra métrica de rendimiento) en una tarea. Una alternativa interesante, que cobrará cada vez más importancia en el futuro, es la precisión en relación con el consumo de energía. A medida que una red escala, cada unidad adicional requiere también más energía y la energía es cara. Además del impacto sobre el medio ambiente, el bajo consumo de energía también desempeñará un papel esencial en el mundo de la IoT, los pequeños dispositivos médicos y las blockchains de enorme para la economía. Así, en el contexto de la IA de propósito más general, otro indicador de rendimiento es crucial para comparar diferentes arquitecturas de red: el número de aplicaciones posibles en términos de consumo de energía. ¿Cuántas tareas puede gestionar la red con qué coste energético?
"El cerebro humano -la fuente original de la inteligencia- proporciona aquí una importante inspiración. Nuestros cerebros son increíblemente eficientes en comparación con los métodos actuales de aprendizaje profundo. Pesan unos pocos kilos y requieren unos 20 vatios de energía, apenas suficiente para alimentar una bombilla tenue. Y, sin embargo, representan la forma de inteligencia más poderosa del universo conocido". - Rob Toews @ Revista Forbes
El consumo de energía no sólo cuesta dinero, sino también CO2. Un estudio publicado recientemente ML Impacto CO2 le ayuda a estimar el consumo de CO2 de las aplicaciones de aprendizaje automático. Herramientas como esta ayudan a implementar los KPI propuestos para su próximo proyecto de IA.
Almuerzo gratis para usted
Un mensaje importante para los dirigentes es, sin duda, que el propio deseo de crear una inteligencia próxima al ser humano fomenta una y otra vez enormes talentos y produce tecnologías prometedoras que se abren camino en la práctica. Por tanto, es importante no dejarse cegar por promesas elevadas ni cerrar la mente a planteamientos innovadores que vayan más allá de los establecidos. Los objetivos elevados pueden ser más arriesgados, pero si tienen éxito, el efecto positivo es tanto mayor.
Sí, es un buen consejo evaluar las promesas en el campo de la IA comparándolas con lo que encontramos en la naturaleza. Sin embargo, esta comparación debe hacerse con cautela. La naturaleza es una guía increíblemente buena y sirve de inspiración para las tecnologías más prometedoras y sostenibles. Y hasta ahora, funciona (mucho) mejor que cualquier cosa que haya inventado la humanidad, incluida la IA.
Conclusión
En la década de 1940, los pioneros de la IA imitaron la estructura del cerebro humano. Desde entonces, la IA ha evolucionado y logrado enormes éxitos por sí misma, pero el estado actual de la técnica del aprendizaje profundo aún está lejos de la inteligencia humana. A la industria le gusta aplicar la disciplina "tal cual". Sin embargo, investigaciones recientes muestran lo fructífero que podría ser el uso de hardware y software de inspiración biológica. Este artículo pretende destacar algunos trabajos prometedores en esta dirección y animar a quienes utilizan la IA a tener la mente abierta ante estos avances.
0 comentarios