En un esfuerzo por expandir los límites de las capacidades de inteligencia artificial (IA) y procesamiento del lenguaje natural en aplicaciones empresariales, el equipo de Model Serving de Salesforce se ha concentrado en optimizar modelos de lenguaje de gran tamaño (LLMs) mediante la integración de soluciones avanzadas y la colaboración con proveedores tecnológicos líderes. Este equipo no solo abarca modelos de aprendizaje automático tradicionales, sino que también incluye inteligencia artificial generativa, modelos de reconocimiento de voz y de visión por computadora.
Una de las principales tareas del equipo es el proceso completo de gestión de modelos, que incluye la recopilación de requisitos, la optimización y el escalado de modelos de IA desarrollados por los equipos de ciencia de datos y investigación de Salesforce. Para lograr altos niveles de rendimiento, se hace hincapié en la minimización de la latencia y la maximización del rendimiento a medida que se despliegan los modelos en múltiples regiones de AWS.
Salesforce enfrenta desafíos significativos al implementar estos modelos. Uno de los mayores retos consiste en equilibrar la latencia y el rendimiento sin sacrificar la eficiencia de costos, especialmente en un entorno empresarial que demanda respuestas rápidas y precisas. La optimización del rendimiento de los modelos, asegurando su seguridad y protección de los datos del cliente, también es fundamental.
Para hacer frente a estos retos, el equipo ha desarrollado un marco de alojamiento en AWS con el fin de simplificar la gestión del ciclo de vida de los modelos. Utilizan Amazon SageMaker AI, que les proporciona herramientas para soportar inferencias distribuidas y despliegues de múltiples modelos, lo que ayuda a evitar cuellos de botella de memoria y a reducir los costos de hardware. SageMaker también facilita el uso de contenedores de aprendizaje profundo que aceleran el desarrollo y la implementación, lo que significa que los ingenieros pueden centrarse en la optimización de modelos en lugar de configuraciones de infraestructura.
Además, Salesforce ha adoptado una serie de prácticas de configuración recomendadas para el despliegue en SageMaker AI, lo que permite una utilización óptima de GPU y una mejor asignación de memoria. Esto se traduce en un despliegue rápido y eficiente de modelos optimizados, que cumplen con los requerimientos de alta disponibilidad y responden con baja latencia.
A través de un enfoque modular en el desarrollo, el equipo garantiza que las mejoras en un proyecto no interfieran con otros. Están explorando diversas técnicas de optimización e investigando nuevas tecnologías para mejorar aún más la eficiencia en costos y energía. Las colaboraciones continuas con la comunidad de código abierto y proveedores en la nube como AWS ayudan a asegurar que se incorporen las últimas innovaciones en sus procesos.
En términos de seguridad, Salesforce establece estándares estrictos desde el inicio del ciclo de desarrollo, implementando mecanismos de encriptación y controles de acceso para proteger los datos. Mediante pruebas automatizadas, el equipo se asegura de que la implementación rápida no comprometa la seguridad.
A medida que las necesidades de IA generativa de Salesforce continúan creciendo, el equipo sigue comprometido con la mejora constante de su infraestructura de despliegue, explorando nuevas metodologías y tecnologías para mantenerse a la vanguardia en esta emocionante área de la inteligencia artificial.
vía: AWS machine learning blog