Los LLM y la IA generativa cobran importancia para las prácticas de MLOps

Artículos / Análisis

Las necesidades únicas de desarrollo de inteligencia artificial (IA) generaron prácticas MLOps diseñadas para crear e implementar modelos de aprendizaje automático. Siempre en constante cambio, esas prácticas pueden sufrir otra reestructuración, a medida que la IA generativa y los modelos de lenguaje grande (LLM) impulsen nuevas aplicaciones.

Cuando en el pasado se produjeron avances en los modelos de aprendizaje automático (ML), las noticias se limitaron a pequeñas comunidades de especialistas en IA. La base de datos de reconocimiento de objetos Image Net en 2012 y la arquitectura neuronal Transformer descrita en 2017 por Google fueron pequeñas repercusiones en la conciencia tecnológica.

No es así con ChatGPT. Causó un gran revuelo en todo el mundo cuando se agregó a Bing y al navegador Edge. Los ejecutivos de la alta dirección tuvieron que tomar nota de que la IA generativa, los LLM y los modelos básicos parecían apuntar a innovaciones significativas. La IA generativa presagia nuevas formas de interacción de chatbot, suma y generación de contenido, generación de código de software y mucho más.

La consultora Deloitte dice que la IA generativa está creando una ola de disrupción. Hasta el 55% de los encuestados en una encuesta de Deloitte/Forbes de 2023 a 143 directores ejecutivos están evaluando o experimentando con IA generativa.

Mientras tanto, el 79% está de acuerdo en que la IA generativa aumentará la eficiencia y el 52% de los encuestados cree que aumentará las oportunidades de crecimiento. Deloitte dijo que el 37% de los encuestados ya están implementando IA generativa hasta cierto punto.

La carrera hacia los LLM y la necesidad de herramientas de desarrollo de ML de primer nivel ha acelerado las adquisiciones en el espacio de ML Ops. Algunos espectadores también están empezando a distinguir el “espacio LLM Ops”.

Muchos ven este tipo de compras como juegos de adquisición de talento, lo que pone de relieve los problemas de habilidades que ensombrecen las perspectivas de la IA generativa.

Los equipos ahora trabajan para dominar la nueva tecnología tanto en el modo de entrenamiento como en el de inferencia. Los LLM en el corazón de las innovaciones de la IA generativa requieren arquitecturas de hardware y software a gran escala que admitan la computación distribuida. Los recursos de memoria y computación deben ajustarse para reducir la latencia en la interacción hombre-máquina. Todo esto se traduce rápidamente en costos que obstaculizan algunos proyectos esperanzadores.

Además, los LLM se alimentan de datos de formación prodigiosos, que deben ser curados y gobernados. El resultado del LLM puede ser inestable; A veces, los desarrolladores confían en la ingeniería rápida iterativa, consultando repetidamente el modelo y luego reflexionando sobre la naturaleza aleatoria de las respuestas a medida que llegan. Aún así, los desarrolladores y proveedores independientes de todos los tamaños ven caminos para resolver los problemas.

"Los modelos de lenguaje grandes son sorprendentes en el razonamiento de propósito general, pero son extremadamente frágiles", dijo Shreya Rajpal, quien habló en la reciente Cumbre Databricks Data and AI 2023. "Obtener resultados correctos de modelos de lenguaje grandes es difícil".

"Cuando lo amplías, no hay garantías de que vaya a funcionar como esperas", dijo a los asistentes a la Cumbre de Datos e IA.

Rajpal es un ex ingeniero senior de aprendizaje automático de Apple y ahora fundador de la nueva empresa Guardrails AI, que crea software para garantizar mejor la calidad de los resultados de LLM.

Según Rajpal, como los LLM se aplican para usos empresariales, donde la corrección es fundamental, existe una gran necesidad de validar los datos aportados. La validación gira en torno a estructuras y tipos de lenguaje, comprobaciones de malas palabras o duración de las respuestas, y mucho más. En Guardrails AI, Rajpal utiliza herramientas de verificación en una búsqueda para garantizar mejor la calidad de los resultados de LLM.

La tecnología de contenedores continúa impulsando el desarrollo del aprendizaje automático automatizado. Promueven una colaboración vital entre los científicos de datos y las operaciones. Los desafíos únicos de los LLM requerirán una mejor gestión de contenedores, según Josh Poduska, científico jefe de datos de campo en Domino Data Lab, que ha perfeccionado habilidades analíticas para una variedad de clientes de Fortune 100 desde su creación en 2013.

“La ciencia de datos actual se basa en gran medida en contenedores. A nivel empresarial, desempeñan un papel muy importante en la construcción de las bases de una plataforma de ciencia de datos. Los LLM requieren un tipo de contenedor diferente al del aprendizaje automático tradicional y eso impone nuevos requisitos a los marcos de gestión de contenedores que respaldan una mejor colaboración, para una mejor reproducibilidad”, indicó.

En su última versión de Domino Enterprise MLOps Platform, dijo Poduska, Domino incluye modelos básicos previamente entrenados y plantillas de proyectos para ayudar a escalar automáticamente los proyectos de IA generativa de los usuarios. El software incluye soporte para los marcos informáticos distribuidos Apache Spark, Dask y Ray utilizados con los LLM, así como un nuevo Model Sentry que permite el control de los procesos de validación, revisión y aprobación del modelo.

Facilitar el desarrollo de LLM es un objetivo de Nvidia, el productor de las GPU que impulsan gran parte del trabajo actual de IA y al que le gustaría ver una amplia adopción. Nvidia ha mejorado su marco NeMo en contenedores, ya conocido por oleadas anteriores de innovaciones en procesamiento de voz e imágenes de IA, para el rendimiento LLM.

Kari Briski, vicepresidente de gestión de productos para software de IA y HPC en Nvidia, describe NeMo como un marco de trabajo de un extremo a otro que cubre tareas que van desde la curación de datos hasta la capacitación distribuida y la inferencia de IA. NeMo ahora permite el procesamiento distribuido ampliado para LLM. Como parte de sus esfuerzos, Nvidia lanzó en abril NeMo Guardrails para ayudar a construir chatbots de IA que sean "precisos, apropiados, específicos y seguros".

Briski posiciona el nuevo software como un paso natural en la evolución, pero con algunos giros que podrían incluirse bajo el título "LLM Ops".

“El código ha evolucionado a lo largo de los años, los compiladores, los conjuntos de pruebas y los casos de prueba también. ML Ops acaba de pasar por la evolución de lo que necesitamos en nuestro software”, dijo.

¿Dónde están las diferencias? El tono de las respuestas a las preguntas de los usuarios es uno.

“Las evaluaciones tienden a ser subjetivas. Cada empresa que [trabaje con] sus datos personales será subjetiva”, dijo Briski. Esto se traslada al propio “tono de voz” en las respuestas a las consultas de los usuarios. La forma en que se califican las respuestas, por ejemplo, depende de cómo se ajustan a la forma en que una empresa define la voz de su marca.

La evaluación de los resultados del LLM es uno de los problemas más difíciles que los equipos deben resolver en estos días, dijo Waleed Kadous, científico jefe de Anyscale y ex líder de ingeniería en Uber y Google.

"La evaluación es uno de los problemas más complicados y menos resueltos de los LLM, en comparación con otras operaciones de ML", dijo.

Si estás tratando de saber si algo es un gato o un perro, dijo Kadous, es muy fácil decidir si estás haciendo un buen trabajo. Pero cuando le das a la gente un bloque de texto que puede o no responder a su pregunta, o que puede ser ofensivo, medir el éxito es mucho más difícil.

Kadous dijo que los avances en la generación aumentada de recuperación son prometedores para abordar el problema. Esta técnica combina modelos de preguntas y respuestas específicos de la industria con LLM.

Mientras tanto, no descarta los desafíos que enfrenta la computación rentable para la IA generativa, que es uno de los problemas que Anyscale está tratando de abordar. La empresa ofrece la plataforma de programación distribuida Anyscale, que es su versión administrada y de escalamiento automático del marco de código abierto Ray. Ese marco es intrínseco a su misión, ya que los principios fundacionales de AnyScale comenzaron a crearlo mientras estudiaba en la Universidad de California, Berkeley. La API de Ray obtuvo recientemente mejoras de transmisión para admitir tiempos de respuesta más rápidos para cargas de trabajo LLM.

En mayo, Anyscale lanzó el proyecto de código abierto Aviary para ayudar a los desarrolladores a evaluar e implementar LLM. El servicio basado en la nube permite a los desarrolladores enviar solicitudes de prueba a una variedad de LLM de código abierto y probar diferentes técnicas de optimización.

La novedad de los LLM no debería ocultar mucho de lo que resulta básicamente familiar para cualquiera que haya trabajado en aprendizaje automático, según Andy Thurai, vicepresidente y analista principal de Constellation Research.

"LLM Ops es el equivalente a MLOps, pero para LLM", dijo en una entrevista por correo electrónico. "Se trata esencialmente de cómo entrenar los modelos LLM y ponerlos en producción de la manera más eficiente".

Están en juego cuestiones que ya son familiares en trabajos anteriores de MLOps, añade. Estos incluyen cosas como monitoreo de modelos, deriva de modelos y reentrenamiento de modelos. El imperativo eterno de alimentar a los modelos con buenos datos también se aplica, señala.

“Si alguien quiere crear un LLM, se aplicarían las mejores prácticas habituales de ML. La adquisición de datos, la curación/preparación de datos, la limpieza de datos, la gestión de datos, la ingeniería de funciones, la anotación de datos, la privacidad de los datos, la gobernanza de los datos y el seguimiento del linaje de datos entrarán en juego desde el lado de la ingeniería de datos”, dijo Thurai. "La eliminación y mitigación de sesgos también desempeñan un papel".

Muchas cosas sobre los LLM son familiares, pero también hay muchas cosas nuevas sobre ellos. El grado de éxito que logren los equipos de desarrollo con nuevas herramientas, marcos y bibliotecas decidirá en última instancia qué tan pronto se generalizará la innovación en IA.