¿Qué hay dentro del LLM? Ai2 Olmotrace 'rastreará' la fuente

Comprender la conexión entre la salida de un modelo de lenguaje grande (LLM) y sus datos de entrenamiento siempre ha sido un poco rompecabezas para Enterprise IT. Esta semana, el Allen Institute for AI (AI2) lanzó una nueva y emocionante iniciativa de código abierto llamada Olmotrace, que tiene como objetivo desmitificar esta relación. Al permitir que los usuarios rastreen las salidas de LLM a sus datos de entrenamiento originales, Olmotrace aborda uno de los mayores obstáculos a la adopción empresarial de IA: la falta de transparencia en los procesos de toma de decisiones de IA.
OLMO, que representa el modelo de lenguaje abierto, es el nombre de la familia de LLM de código abierto de AI2. Puede probar Olmotrace con el último modelo OLMO 2 32B en el sitio de juegos de AI2. Además, el código de código abierto está en juego en Github, por lo que cualquiera puede usarlo libremente.
Lo que distingue a Olmotrace de otros métodos, como los que se centran en los puntajes de confianza o la generación de recuperación, es que proporciona una visión clara de cómo las salidas del modelo se relacionan con los vastos conjuntos de datos de entrenamiento que los dieron forma. Jiacheng Liu, investigador de AI2, dijo a VentureBeat: "Nuestro objetivo es ayudar a los usuarios a comprender por qué los modelos de lenguaje generan las respuestas que hacen".
Cómo funciona Olmotrace: más que solo citas
Si bien los LLM como la perplejidad o la búsqueda ChatGPT pueden ofrecer citas de origen, operan de manera diferente a Olmotrace. Según Liu, estos modelos utilizan la generación de recuperación acuática (RAG), cuyo objetivo es mejorar la calidad del resultado del modelo al incorporar fuentes adicionales más allá de los datos de capacitación. Por otro lado, Olmotrace traza la salida del modelo directamente de regreso al corpus de entrenamiento sin confiar en trapo o documentos externos.
La herramienta identifica secuencias de texto únicas en las salidas del modelo y las coincide con documentos específicos de los datos de capacitación. Cuando se encuentra una coincidencia, Olmotrace no solo resalta el texto relevante, sino que también proporciona enlaces al material fuente original. Esto permite a los usuarios ver exactamente dónde y cómo el modelo aprendió la información que utiliza.
Más allá de los puntajes de la confianza: evidencia tangible de la toma de decisiones de IA
Los LLM generalmente generan salidas basadas en pesos del modelo, que se utilizan para calcular una puntuación de confianza. Cuanto mayor sea la puntuación, más supuestamente precisa es la salida. Sin embargo, Liu cree que estos puntajes pueden ser engañosos. "Los modelos pueden estar demasiado confiados en las cosas que generan, y si les pide que generen una puntuación, generalmente está inflado", explicó. "Eso es lo que los académicos llaman un error de calibración: la confianza de que la salida de los modelos no siempre refleja cuán precisas son realmente sus respuestas".
En lugar de confiar en puntajes potencialmente engañosos, Olmotrace ofrece evidencia directa de las fuentes de aprendizaje del modelo, lo que permite a los usuarios emitir juicios informados. "Lo que hace Olmotrace es mostrarle las coincidencias entre las salidas del modelo y los documentos de entrenamiento", dijo Liu. "A través de la interfaz, puede ver directamente dónde están los puntos de coincidencia y cómo las salidas del modelo coinciden con los documentos de entrenamiento".
Cómo Olmotrace se compara con otros enfoques de transparencia
AI2 no es la única organización que trabaja para comprender mejor las salidas de LLM. Anthrope también ha realizado investigaciones, pero su enfoque ha estado en las operaciones internas del modelo en lugar de sus datos. Liu destacó la diferencia: "Estamos adoptando un enfoque diferente de ellos. Estamos rastreando directamente en el comportamiento del modelo, en sus datos de entrenamiento, en lugar de rastrear cosas en las neuronas modelo, circuitos internos, ese tipo de cosas".
Este enfoque hace que Olmotrace sea más práctica para las aplicaciones empresariales, ya que no requiere un conocimiento profundo de la arquitectura de redes neuronales para comprender los resultados.
Aplicaciones empresariales de IA: desde el cumplimiento regulatorio hasta la depuración del modelo
Para las empresas que implementan IA en sectores regulados como la atención médica, las finanzas o los servicios legales, Olmotrace ofrece beneficios significativos sobre los sistemas tradicionales de caja negra. "Creemos que Olmotrace ayudará a los usuarios empresariales y comerciales a comprender mejor lo que se usa en la capacitación de los modelos para que puedan tener más confianza cuando quieran construir sobre ellos", dijo Liu. "Esto puede ayudar a aumentar la transparencia y la confianza entre ellos de sus modelos, y también para los clientes de sus comportamientos de modelo".
La tecnología permite varias capacidades clave para equipos de IA empresariales:
- Sutens de modelo de verificación de hechos contra fuentes originales
- Comprender los orígenes de las alucinaciones
- Mejora de la depuración del modelo identificando patrones problemáticos
- Mejorar el cumplimiento regulatorio a través de la trazabilidad de los datos
- Creación de confianza con las partes interesadas a través de una mayor transparencia
El equipo AI2 ya ha usado a Olmotrace. "Ya lo estamos usando para mejorar nuestros datos de entrenamiento", reveló Liu. "Cuando construimos Olmo 2 y comenzamos nuestro entrenamiento, a través de Olmotrace, descubrimos que en realidad algunos de los datos posteriores al entrenamiento no eran buenos".
Lo que esto significa para la adopción empresarial de IA
Para las empresas que pretenden estar a la vanguardia de la adopción de IA, Olmotrace marca un avance significativo hacia sistemas de IA más responsables. La herramienta está disponible bajo una licencia de código abierto Apache 2.0, lo que significa que cualquier organización con acceso a los datos de capacitación de su modelo puede implementar capacidades de rastreo similares.
"Olmotrace puede trabajar en cualquier modelo, siempre que tenga los datos de entrenamiento del modelo", señaló Liu. "Para modelos completamente abiertos donde todos tienen acceso a los datos de capacitación del modelo, cualquiera puede configurar Olmotrace para ese modelo y para modelos propietarios, tal vez algunos proveedores no quieran liberar sus datos, también pueden hacer esta Olmotrace internamente".
A medida que evolucionan los marcos de gobernanza de IA globales, es probable que herramientas como Olmotrace que permitan la verificación y la auditabilidad se conviertan en componentes cruciales de las pilas de IA empresariales, especialmente en las industrias reguladas donde se requiere cada vez más transparencia. Para los tomadores de decisiones técnicas que consideran los pros y los contras de la adopción de IA, Olmotrace proporciona una forma práctica de implementar sistemas de IA más confiables y explicables sin comprometer el poder de los modelos de idiomas grandes.
Artículo relacionado
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
朱利叶斯AI:用计算智能彻底改变数据分析
在当今以数据为中心的世界中,数据分析在做出明智的决策中起着关键作用。但是,对于许多人来说,这个过程仍然令人生畏和耗时。输入Julius AI,这是一种革命性的计算AI工具
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建
用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
comentario (5)
0/200
DonaldLee
22 de abril de 2025 00:00:00 GMT
OLMoTrace is a cool tool for peeking under the hood of LLMs. It's fascinating to see how the training data influences the output. The interface could be more user-friendly though. Still, it's a great start for transparency in AI! 👀
0
NicholasClark
22 de abril de 2025 00:00:00 GMT
OLMoTraceはLLMの内部を覗くための素晴らしいツールです。トレーニングデータが出力にどのように影響するかを見るのは興味深いです。ただ、インターフェースがもう少しユーザーフレンドリーだといいですね。それでも、AIの透明性のための良いスタートです!👀
0
GregoryAdams
23 de abril de 2025 00:00:00 GMT
OLMoTrace는 LLM의 내부를 들여다볼 수 있는 멋진 도구입니다. 훈련 데이터가 출력에 어떻게 영향을 미치는지 보는 것이 흥미롭습니다. 다만, 인터페이스가 좀 더 사용자 친화적이면 좋겠어요. 그래도, AI 투명성의 좋은 시작입니다! 👀
0
MichaelDavis
22 de abril de 2025 00:00:00 GMT
OLMoTrace é uma ferramenta legal para dar uma olhada no funcionamento interno dos LLMs. É fascinante ver como os dados de treinamento influenciam a saída. A interface poderia ser mais amigável, no entanto. Ainda assim, é um ótimo começo para a transparência em IA! 👀
0
PaulTaylor
22 de abril de 2025 00:00:00 GMT
OLMoTrace es una herramienta genial para echar un vistazo bajo el capó de los LLMs. Es fascinante ver cómo los datos de entrenamiento influyen en la salida. La interfaz podría ser más amigable para el usuario, sin embargo. Aún así, es un gran comienzo para la transparencia en la IA! 👀
0
Comprender la conexión entre la salida de un modelo de lenguaje grande (LLM) y sus datos de entrenamiento siempre ha sido un poco rompecabezas para Enterprise IT. Esta semana, el Allen Institute for AI (AI2) lanzó una nueva y emocionante iniciativa de código abierto llamada Olmotrace, que tiene como objetivo desmitificar esta relación. Al permitir que los usuarios rastreen las salidas de LLM a sus datos de entrenamiento originales, Olmotrace aborda uno de los mayores obstáculos a la adopción empresarial de IA: la falta de transparencia en los procesos de toma de decisiones de IA.
OLMO, que representa el modelo de lenguaje abierto, es el nombre de la familia de LLM de código abierto de AI2. Puede probar Olmotrace con el último modelo OLMO 2 32B en el sitio de juegos de AI2. Además, el código de código abierto está en juego en Github, por lo que cualquiera puede usarlo libremente.
Lo que distingue a Olmotrace de otros métodos, como los que se centran en los puntajes de confianza o la generación de recuperación, es que proporciona una visión clara de cómo las salidas del modelo se relacionan con los vastos conjuntos de datos de entrenamiento que los dieron forma. Jiacheng Liu, investigador de AI2, dijo a VentureBeat: "Nuestro objetivo es ayudar a los usuarios a comprender por qué los modelos de lenguaje generan las respuestas que hacen".
Cómo funciona Olmotrace: más que solo citas
Si bien los LLM como la perplejidad o la búsqueda ChatGPT pueden ofrecer citas de origen, operan de manera diferente a Olmotrace. Según Liu, estos modelos utilizan la generación de recuperación acuática (RAG), cuyo objetivo es mejorar la calidad del resultado del modelo al incorporar fuentes adicionales más allá de los datos de capacitación. Por otro lado, Olmotrace traza la salida del modelo directamente de regreso al corpus de entrenamiento sin confiar en trapo o documentos externos.
La herramienta identifica secuencias de texto únicas en las salidas del modelo y las coincide con documentos específicos de los datos de capacitación. Cuando se encuentra una coincidencia, Olmotrace no solo resalta el texto relevante, sino que también proporciona enlaces al material fuente original. Esto permite a los usuarios ver exactamente dónde y cómo el modelo aprendió la información que utiliza.
Más allá de los puntajes de la confianza: evidencia tangible de la toma de decisiones de IA
Los LLM generalmente generan salidas basadas en pesos del modelo, que se utilizan para calcular una puntuación de confianza. Cuanto mayor sea la puntuación, más supuestamente precisa es la salida. Sin embargo, Liu cree que estos puntajes pueden ser engañosos. "Los modelos pueden estar demasiado confiados en las cosas que generan, y si les pide que generen una puntuación, generalmente está inflado", explicó. "Eso es lo que los académicos llaman un error de calibración: la confianza de que la salida de los modelos no siempre refleja cuán precisas son realmente sus respuestas".
En lugar de confiar en puntajes potencialmente engañosos, Olmotrace ofrece evidencia directa de las fuentes de aprendizaje del modelo, lo que permite a los usuarios emitir juicios informados. "Lo que hace Olmotrace es mostrarle las coincidencias entre las salidas del modelo y los documentos de entrenamiento", dijo Liu. "A través de la interfaz, puede ver directamente dónde están los puntos de coincidencia y cómo las salidas del modelo coinciden con los documentos de entrenamiento".
Cómo Olmotrace se compara con otros enfoques de transparencia
AI2 no es la única organización que trabaja para comprender mejor las salidas de LLM. Anthrope también ha realizado investigaciones, pero su enfoque ha estado en las operaciones internas del modelo en lugar de sus datos. Liu destacó la diferencia: "Estamos adoptando un enfoque diferente de ellos. Estamos rastreando directamente en el comportamiento del modelo, en sus datos de entrenamiento, en lugar de rastrear cosas en las neuronas modelo, circuitos internos, ese tipo de cosas".
Este enfoque hace que Olmotrace sea más práctica para las aplicaciones empresariales, ya que no requiere un conocimiento profundo de la arquitectura de redes neuronales para comprender los resultados.
Aplicaciones empresariales de IA: desde el cumplimiento regulatorio hasta la depuración del modelo
Para las empresas que implementan IA en sectores regulados como la atención médica, las finanzas o los servicios legales, Olmotrace ofrece beneficios significativos sobre los sistemas tradicionales de caja negra. "Creemos que Olmotrace ayudará a los usuarios empresariales y comerciales a comprender mejor lo que se usa en la capacitación de los modelos para que puedan tener más confianza cuando quieran construir sobre ellos", dijo Liu. "Esto puede ayudar a aumentar la transparencia y la confianza entre ellos de sus modelos, y también para los clientes de sus comportamientos de modelo".
La tecnología permite varias capacidades clave para equipos de IA empresariales:
- Sutens de modelo de verificación de hechos contra fuentes originales
- Comprender los orígenes de las alucinaciones
- Mejora de la depuración del modelo identificando patrones problemáticos
- Mejorar el cumplimiento regulatorio a través de la trazabilidad de los datos
- Creación de confianza con las partes interesadas a través de una mayor transparencia
El equipo AI2 ya ha usado a Olmotrace. "Ya lo estamos usando para mejorar nuestros datos de entrenamiento", reveló Liu. "Cuando construimos Olmo 2 y comenzamos nuestro entrenamiento, a través de Olmotrace, descubrimos que en realidad algunos de los datos posteriores al entrenamiento no eran buenos".
Lo que esto significa para la adopción empresarial de IA
Para las empresas que pretenden estar a la vanguardia de la adopción de IA, Olmotrace marca un avance significativo hacia sistemas de IA más responsables. La herramienta está disponible bajo una licencia de código abierto Apache 2.0, lo que significa que cualquier organización con acceso a los datos de capacitación de su modelo puede implementar capacidades de rastreo similares.
"Olmotrace puede trabajar en cualquier modelo, siempre que tenga los datos de entrenamiento del modelo", señaló Liu. "Para modelos completamente abiertos donde todos tienen acceso a los datos de capacitación del modelo, cualquiera puede configurar Olmotrace para ese modelo y para modelos propietarios, tal vez algunos proveedores no quieran liberar sus datos, también pueden hacer esta Olmotrace internamente".
A medida que evolucionan los marcos de gobernanza de IA globales, es probable que herramientas como Olmotrace que permitan la verificación y la auditabilidad se conviertan en componentes cruciales de las pilas de IA empresariales, especialmente en las industrias reguladas donde se requiere cada vez más transparencia. Para los tomadores de decisiones técnicas que consideran los pros y los contras de la adopción de IA, Olmotrace proporciona una forma práctica de implementar sistemas de IA más confiables y explicables sin comprometer el poder de los modelos de idiomas grandes.




OLMoTrace is a cool tool for peeking under the hood of LLMs. It's fascinating to see how the training data influences the output. The interface could be more user-friendly though. Still, it's a great start for transparency in AI! 👀




OLMoTraceはLLMの内部を覗くための素晴らしいツールです。トレーニングデータが出力にどのように影響するかを見るのは興味深いです。ただ、インターフェースがもう少しユーザーフレンドリーだといいですね。それでも、AIの透明性のための良いスタートです!👀




OLMoTrace는 LLM의 내부를 들여다볼 수 있는 멋진 도구입니다. 훈련 데이터가 출력에 어떻게 영향을 미치는지 보는 것이 흥미롭습니다. 다만, 인터페이스가 좀 더 사용자 친화적이면 좋겠어요. 그래도, AI 투명성의 좋은 시작입니다! 👀




OLMoTrace é uma ferramenta legal para dar uma olhada no funcionamento interno dos LLMs. É fascinante ver como os dados de treinamento influenciam a saída. A interface poderia ser mais amigável, no entanto. Ainda assim, é um ótimo começo para a transparência em IA! 👀




OLMoTrace es una herramienta genial para echar un vistazo bajo el capó de los LLMs. Es fascinante ver cómo los datos de entrenamiento influyen en la salida. La interfaz podría ser más amigable para el usuario, sin embargo. Aún así, es un gran comienzo para la transparencia en la IA! 👀












