Composio: monitoreo del rendimiento de la aplicación AI para empresas

La IA y los modelos de lenguaje grandes (LLMs) son muy prometedores, pero seamos realistas: pueden ser algo impredecibles. Nadie está seguro de cuándo se resolverán todos los problemas, así que no sorprende que las startups estén entrando para ayudar a las empresas a asegurarse de que sus aplicaciones basadas en LLMs hagan lo que se supone que deben hacer.
Llega Composo, una startup con sede en Londres que cree tener ventaja para resolver este problema. Tienen modelos personalizados que ayudan a las empresas a verificar si sus aplicaciones LLM son precisas y están a la altura.
Composo no está solo en este campo; compite con empresas como Agenta, Freeplay, Humanloop y LangSmith, todas intentando ofrecer una mejor forma basada en LLMs para probar aplicaciones en lugar de depender de humanos, listas de verificación o herramientas tradicionales. Pero Composo dice que es diferente porque ofrece una opción sin código y una API. Esto significa que más personas pueden usarlo, no solo desarrolladores: expertos del dominio y ejecutivos pueden participar y verificar inconsistencias, calidad y precisión por sí mismos.
Así funciona: Composo combina un modelo de recompensa, entrenado en lo que las personas quieren ver de una aplicación de IA, con criterios específicos para esa aplicación. Luego, puntúa qué tan bien el resultado de la aplicación coincide con esos criterios. Por ejemplo, si tienes un chatbot de triaje médico, puedes establecer pautas personalizadas para detectar síntomas de alerta, y Composo te dirá qué tan bien la aplicación sigue esas reglas.
Acaban de lanzar una API pública para Composo Align, que ayuda a evaluar aplicaciones LLM según los criterios que establezcas.
Parece estar dando frutos: tienen grandes nombres como Accenture, Palantir y McKinsey en su lista de clientes, y recientemente obtuvieron 2 millones de dólares en financiación pre-semilla. Puede que no suene mucho, especialmente en el mundo de la IA donde el dinero suele fluir, pero el cofundador y CEO de Composo, Sebastian Fox, dice que no necesitan toneladas de dinero. "Al menos durante los próximos tres años, no prevemos recaudar cientos de millones porque hay mucha gente construyendo modelos fundacionales y lo hace muy eficazmente, y ese no es nuestro punto fuerte," dijo Fox, quien solía ser consultor en McKinsey. "En cambio, cada mañana, si me despierto y veo una noticia de que OpenAI ha hecho un gran avance en sus modelos, eso es bueno para mi negocio."
Con los nuevos fondos, Composo planea reforzar su equipo de ingeniería (liderado por el cofundador y CTO Luke Markham, un exingeniero de aprendizaje automático en Graphcore), captar más clientes y aumentar la I+D. "El enfoque de este año es mucho más sobre escalar la tecnología que ahora tenemos en esas empresas," dijo Fox.
La ronda semilla fue liderada por el fondo británico de pre-semilla de IA Twin Path Ventures, con JVH Ventures y EWOR también contribuyendo. EWOR ya había respaldado a Composo a través de su programa de aceleración. "Composo está abordando un cuello de botella crítico en la adopción de la IA empresarial," dijo un portavoz de Twin Path.
Este cuello de botella es un gran problema para toda la escena de la IA, especialmente para las empresas, según Fox. "La gente ha superado la emoción del bombo y ahora está pensando, 'Bueno, en realidad, ¿esto realmente cambia algo en mi negocio en su forma actual? Porque no es lo suficientemente confiable, ni consistente. Y aunque lo sea, no puedes probarme cuánto lo es,'" explicó.
Esto podría hacer que Composo sea muy valioso para las empresas que quieran usar IA pero estén preocupadas por los riesgos. Por eso son agnósticos de la industria, pero aún se centran en cumplimiento, legal, salud y seguridad.
En cuanto a qué los distingue, Fox dice que no es fácil replicar lo que han hecho. "Está tanto la arquitectura del modelo como los datos que hemos usado para entrenarlo," dijo, señalando que Composo Align fue entrenado en un "gran conjunto de datos de evaluaciones expertas."
Claro, los gigantes tecnológicos podrían intentar resolver este problema, pero Composo cree que tiene una ventaja inicial. "Lo otro es los datos que acumulamos con el tiempo," dijo Fox, hablando sobre cómo construyen preferencias de evaluación.
Debido a que puede evaluar aplicaciones contra un conjunto flexible de criterios, Composo también cree que está mejor posicionado para el auge de la IA agentiva que los competidores con enfoques más rígidos. "En mi opinión, definitivamente no estamos en la etapa en que los agentes funcionan bien, y eso es exactamente lo que estamos tratando de ayudar a resolver," dijo Fox.
TechCrunch tiene un boletín enfocado en IA. ¡Regístrate aquí para recibirlo en tu bandeja de entrada todos los miércoles.
Artículo relacionado
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial
Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione
Notion convierte su espacio de trabajo en un centro para agentes de IA
Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
Recomendaciones de temas especiales relacionados
comentario (56)
0/500
用AI去监控AI应用,这做法挺有趣的,有点「套娃」的味道。不过这类服务确实有需求,现在模型输出的稳定性确实是个痛点,尤其是对企业级应用来说。我们团队之前试过几个大模型API,偶尔抽风起来真的让人头疼,有个监测工具至少能提前预警吧。😅
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. Startups tackling LLM performance issues is a smart move—businesses need that reliability. Curious to see how this tech evolves! 😎
This article on Composo is pretty cool! It's wild how AI apps can be so powerful yet so unpredictable. Nice to see startups tackling the performance monitoring side—hope it makes LLMs more reliable for businesses! 😎
This article on Composo is super insightful! It’s wild how LLMs are so powerful yet so unpredictable. Excited to see startups tackling this to make AI apps more reliable! 😎
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. I wonder how startups like this will tackle the chaos of LLMs in real-world use. 🤔 Anyone else curious about the future of AI monitoring?

La IA y los modelos de lenguaje grandes (LLMs) son muy prometedores, pero seamos realistas: pueden ser algo impredecibles. Nadie está seguro de cuándo se resolverán todos los problemas, así que no sorprende que las startups estén entrando para ayudar a las empresas a asegurarse de que sus aplicaciones basadas en LLMs hagan lo que se supone que deben hacer.
Llega Composo, una startup con sede en Londres que cree tener ventaja para resolver este problema. Tienen modelos personalizados que ayudan a las empresas a verificar si sus aplicaciones LLM son precisas y están a la altura.
Composo no está solo en este campo; compite con empresas como Agenta, Freeplay, Humanloop y LangSmith, todas intentando ofrecer una mejor forma basada en LLMs para probar aplicaciones en lugar de depender de humanos, listas de verificación o herramientas tradicionales. Pero Composo dice que es diferente porque ofrece una opción sin código y una API. Esto significa que más personas pueden usarlo, no solo desarrolladores: expertos del dominio y ejecutivos pueden participar y verificar inconsistencias, calidad y precisión por sí mismos.
Así funciona: Composo combina un modelo de recompensa, entrenado en lo que las personas quieren ver de una aplicación de IA, con criterios específicos para esa aplicación. Luego, puntúa qué tan bien el resultado de la aplicación coincide con esos criterios. Por ejemplo, si tienes un chatbot de triaje médico, puedes establecer pautas personalizadas para detectar síntomas de alerta, y Composo te dirá qué tan bien la aplicación sigue esas reglas.
Acaban de lanzar una API pública para Composo Align, que ayuda a evaluar aplicaciones LLM según los criterios que establezcas.
Parece estar dando frutos: tienen grandes nombres como Accenture, Palantir y McKinsey en su lista de clientes, y recientemente obtuvieron 2 millones de dólares en financiación pre-semilla. Puede que no suene mucho, especialmente en el mundo de la IA donde el dinero suele fluir, pero el cofundador y CEO de Composo, Sebastian Fox, dice que no necesitan toneladas de dinero. "Al menos durante los próximos tres años, no prevemos recaudar cientos de millones porque hay mucha gente construyendo modelos fundacionales y lo hace muy eficazmente, y ese no es nuestro punto fuerte," dijo Fox, quien solía ser consultor en McKinsey. "En cambio, cada mañana, si me despierto y veo una noticia de que OpenAI ha hecho un gran avance en sus modelos, eso es bueno para mi negocio."
Con los nuevos fondos, Composo planea reforzar su equipo de ingeniería (liderado por el cofundador y CTO Luke Markham, un exingeniero de aprendizaje automático en Graphcore), captar más clientes y aumentar la I+D. "El enfoque de este año es mucho más sobre escalar la tecnología que ahora tenemos en esas empresas," dijo Fox.
La ronda semilla fue liderada por el fondo británico de pre-semilla de IA Twin Path Ventures, con JVH Ventures y EWOR también contribuyendo. EWOR ya había respaldado a Composo a través de su programa de aceleración. "Composo está abordando un cuello de botella crítico en la adopción de la IA empresarial," dijo un portavoz de Twin Path.
Este cuello de botella es un gran problema para toda la escena de la IA, especialmente para las empresas, según Fox. "La gente ha superado la emoción del bombo y ahora está pensando, 'Bueno, en realidad, ¿esto realmente cambia algo en mi negocio en su forma actual? Porque no es lo suficientemente confiable, ni consistente. Y aunque lo sea, no puedes probarme cuánto lo es,'" explicó.
Esto podría hacer que Composo sea muy valioso para las empresas que quieran usar IA pero estén preocupadas por los riesgos. Por eso son agnósticos de la industria, pero aún se centran en cumplimiento, legal, salud y seguridad.
En cuanto a qué los distingue, Fox dice que no es fácil replicar lo que han hecho. "Está tanto la arquitectura del modelo como los datos que hemos usado para entrenarlo," dijo, señalando que Composo Align fue entrenado en un "gran conjunto de datos de evaluaciones expertas."
Claro, los gigantes tecnológicos podrían intentar resolver este problema, pero Composo cree que tiene una ventaja inicial. "Lo otro es los datos que acumulamos con el tiempo," dijo Fox, hablando sobre cómo construyen preferencias de evaluación.
Debido a que puede evaluar aplicaciones contra un conjunto flexible de criterios, Composo también cree que está mejor posicionado para el auge de la IA agentiva que los competidores con enfoques más rígidos. "En mi opinión, definitivamente no estamos en la etapa en que los agentes funcionan bien, y eso es exactamente lo que estamos tratando de ayudar a resolver," dijo Fox.
TechCrunch tiene un boletín enfocado en IA. ¡Regístrate aquí para recibirlo en tu bandeja de entrada todos los miércoles.
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial
Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione
Notion convierte su espacio de trabajo en un centro para agentes de IA
Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación
ElevenLabs anuncia que BlackRock, Jamie Foxx y Eva Longoria se han convertido en nuevos inversores
ElevenLabs, la empresa de inteligencia artificial aplicada a la voz, ha dado a conocer nuevos inversores en su ronda de financiación de serie D, por valor de 500 millones de dólares, anunciada inicial
用AI去监控AI应用,这做法挺有趣的,有点「套娃」的味道。不过这类服务确实有需求,现在模型输出的稳定性确实是个痛点,尤其是对企业级应用来说。我们团队之前试过几个大模型API,偶尔抽风起来真的让人头疼,有个监测工具至少能提前预警吧。😅
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. Startups tackling LLM performance issues is a smart move—businesses need that reliability. Curious to see how this tech evolves! 😎
This article on Composo is pretty cool! It's wild how AI apps can be so powerful yet so unpredictable. Nice to see startups tackling the performance monitoring side—hope it makes LLMs more reliable for businesses! 😎
This article on Composo is super insightful! It’s wild how LLMs are so powerful yet so unpredictable. Excited to see startups tackling this to make AI apps more reliable! 😎
This article on Composo is pretty eye-opening! It's wild how AI apps can be so powerful yet so unpredictable. I wonder how startups like this will tackle the chaos of LLMs in real-world use. 🤔 Anyone else curious about the future of AI monitoring?





Hogar






