O que há dentro do LLM? Ai2 Olmotrace vai 'rastrear' a fonte
21 de Abril de 2025
LawrenceJones
59

Compreender a conexão entre a saída de um grande modelo de linguagem (LLM) e seus dados de treinamento sempre foi um pouco de quebra -cabeça para a empresa. Nesta semana, o Allen Institute for AI (AI2) lançou uma nova iniciativa emocionante de código aberto chamado Olmotrace, que visa desmistificar esse relacionamento. Ao permitir que os usuários rastreem as saídas do LLM de volta aos seus dados originais de treinamento, o Olmotrace aborda um dos maiores obstáculos à adoção da IA corporativa: a falta de transparência nos processos de tomada de decisão da IA.
OLMO, que significa Modelo de Língua Aberta, é o nome da família de LLMs de código aberto da AI2. Você pode experimentar o Olmotrace com o mais recente modelo OLMO 2 32B no site de playground da AI2. Além disso, o código de código aberto está em disputa no Github, para que qualquer um possa usá-lo livremente.
O que diferencia o OLMOTRACE de outros métodos, como os focados nas pontuações da confiança ou na geração de recuperação, é que ele fornece uma visão clara de como as saídas do modelo se relacionam com os vastos conjuntos de dados de treinamento que os moldaram. Jiacheng Liu, pesquisador da AI2, disse à VentureBeat: "Nosso objetivo é ajudar os usuários a entender por que os modelos de idiomas geram as respostas que fazem".
Como funciona o Olmotrace: mais do que apenas citações
Embora os LLMs como perplexidade ou pesquisa de chatgpt possam oferecer citações de origem, eles operam de maneira diferente do Olmotrace. Segundo Liu, esses modelos usam a geração de recuperação de recuperação (RAG), que visa aprimorar a qualidade da saída do modelo, incorporando fontes adicionais além dos dados de treinamento. Por outro lado, o Olmotrace rastreia a saída do modelo diretamente de volta ao corpus de treinamento sem depender de documentos de pano ou externo.
A ferramenta identifica seqüências de texto exclusivas nas saídas do modelo e as correspondem a documentos específicos dos dados de treinamento. Quando uma correspondência é encontrada, o Olmotrace não apenas destaca o texto relevante, mas também fornece links para o material de origem original. Isso permite que os usuários vejam exatamente onde e como o modelo aprendeu as informações que ele usa.
Além das pontuações de confiança: evidência tangível de tomada de decisão de IA
Os LLMs geralmente geram saídas com base em pesos do modelo, que são usados para calcular uma pontuação de confiança. Quanto maior a pontuação, mais supostamente precisa a saída. No entanto, Liu acredita que essas pontuações podem ser enganosas. "Os modelos podem confiar demais nas coisas que eles geram e, se você pedir que eles geram uma pontuação, geralmente é inflado", explicou. "É isso que os acadêmicos chamam de erro de calibração - a confiança de que os modelos de saída nem sempre refletem o quão precisa são suas respostas".
Em vez de confiar em pontuações potencialmente enganosas, a Olmotrace oferece evidências diretas das fontes de aprendizado do modelo, permitindo que os usuários façam julgamentos informados. "O que o Olmotrace faz é mostrar as correspondências entre as saídas do modelo e os documentos de treinamento", disse Liu. "Através da interface, você pode ver diretamente onde estão os pontos de correspondência e como os resultados do modelo coincidem com os documentos de treinamento".
Como o Olmotrace se compara a outras abordagens de transparência
O AI2 não é a única organização que trabalha para entender melhor as saídas do LLM. A antropia também conduziu pesquisas, mas seu foco está nas operações internas do modelo e não nos seus dados. Liu destacou a diferença: "Estamos adotando uma abordagem diferente deles. Estamos rastreando diretamente o comportamento do modelo, em seus dados de treinamento, em oposição a rastrear as coisas nos neurônios modelo, circuitos internos, esse tipo de coisa".
Essa abordagem torna o Olmotrace mais prático para aplicativos corporativos, pois não requer conhecimento profundo da arquitetura de rede neural para entender os resultados.
Aplicativos da IA corporativa: da conformidade regulatória à depuração do modelo
Para empresas que implantam IA em setores regulamentados como serviços de saúde, finanças ou serviços jurídicos, a Olmotrace oferece benefícios significativos em relação aos sistemas tradicionais de caixa preta. "Achamos que o Olmotrace ajudará os usuários empresariais e empresariais a entender melhor o que é usado no treinamento dos modelos, para que eles possam estar mais confiantes quando desejam construir em cima deles", afirmou Liu. "Isso pode ajudar a aumentar a transparência e a confiança entre eles de seus modelos e também para os clientes de seus comportamentos modelo".
A tecnologia permite vários recursos importantes para as equipes da IA corporativa:
- Saídas do modelo de verificação de fatos contra fontes originais
- Compreendendo as origens das alucinações
- Melhorando a depuração do modelo, identificando padrões problemáticos
- Melhorando a conformidade regulatória por meio de rastreabilidade de dados
- Construindo confiança com as partes interessadas através do aumento da transparência
A equipe do AI2 já colocou o Olmotrace em bom uso. "Já estamos usando para melhorar nossos dados de treinamento", revelou Liu. "Quando construímos o Olmo 2 e iniciamos nosso treinamento, através da Olmotrace, descobrimos que na verdade alguns dos dados pós-treinamento não eram bons".
O que isso significa para a adoção da IA corporativa
Para as empresas que visam estar na vanguarda da adoção de IA, a OLMOTRACE marca um avanço significativo em relação aos sistemas de IA mais responsáveis. A ferramenta está disponível sob uma licença de código aberto Apache 2.0, o que significa que qualquer organização com acesso aos dados de treinamento de seu modelo pode implementar recursos de rastreamento semelhantes.
"O Olmotrace pode funcionar em qualquer modelo, desde que você tenha os dados de treinamento do modelo", observou Liu. "Para modelos totalmente abertos, onde todos têm acesso aos dados de treinamento do modelo, qualquer pessoa pode configurar o OLMOTRACE para esse modelo e para modelos proprietários, talvez alguns provedores não queiram lançar seus dados, eles também podem fazer esse olmotrato internamente".
À medida que as estruturas globais de governança da IA evoluem, é provável que ferramentas como o OLMOTRACE que permitam a verificação e auditabilidade se tornem componentes cruciais das pilhas de IA corporativa, especialmente em indústrias regulamentadas onde a transparência é cada vez mais necessária. Para os tomadores de decisão técnicos, considerando os prós e os contras da adoção de IA, o Olmotrace fornece uma maneira prática de implementar sistemas de IA mais confiáveis e explicáveis, sem comprometer o poder de grandes modelos de linguagem.
Artigo relacionado
배치 데이터 처리는 실시간 AI에 비해 너무 느립니다. 오픈 소스 Apache Airflow 3.0이 이벤트 중심의 데이터 오케스트레이션으로 도전을 해결하는 방법
다양한 소스에서 AI 애플리케이션에 적합한 장소로 데이터를 이동하는 것은 작은 위업이 아닙니다. 이곳은 Apache Airflow와 같은 데이터 오케스트레이션 도구가 작동하여 프로세스를 더 부드럽고 효율적으로 만듭니다. Apache Airflow Community는 Ye에서 가장 중요한 업데이트를 방금 출시했습니다.
전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen
AI 에이전트의 해 : 2025 년의 기대와 현실 2025를 자세히 살펴보면 AI 에이전트가 OpenAi, Anthropic, Google 및 Deepseek와 같은 회사의 고급 대형 언어 및 멀티 모달 모델로 구동되는 AI 시스템에 따라 AI 에이전트가 구체화 된 해로 많은 전문가들에 의해 예고되었습니다.
Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁
Anthropic의 New Claude 3.5 Sonnetlast Week의 기능을 테스트하면서 Claude 3.5 Sonnet의 출시를 알리는 전자 메일을 받았습니다. 그들은 "인텔리전스의 업계 바를 높이고, 경쟁 업체 모델을 능가하고, 광범위한 평가에 대한 클로드 3 Opus"라고 자랑했습니다. 티
Comentários (0)
0/200






Compreender a conexão entre a saída de um grande modelo de linguagem (LLM) e seus dados de treinamento sempre foi um pouco de quebra -cabeça para a empresa. Nesta semana, o Allen Institute for AI (AI2) lançou uma nova iniciativa emocionante de código aberto chamado Olmotrace, que visa desmistificar esse relacionamento. Ao permitir que os usuários rastreem as saídas do LLM de volta aos seus dados originais de treinamento, o Olmotrace aborda um dos maiores obstáculos à adoção da IA corporativa: a falta de transparência nos processos de tomada de decisão da IA.
OLMO, que significa Modelo de Língua Aberta, é o nome da família de LLMs de código aberto da AI2. Você pode experimentar o Olmotrace com o mais recente modelo OLMO 2 32B no site de playground da AI2. Além disso, o código de código aberto está em disputa no Github, para que qualquer um possa usá-lo livremente.
O que diferencia o OLMOTRACE de outros métodos, como os focados nas pontuações da confiança ou na geração de recuperação, é que ele fornece uma visão clara de como as saídas do modelo se relacionam com os vastos conjuntos de dados de treinamento que os moldaram. Jiacheng Liu, pesquisador da AI2, disse à VentureBeat: "Nosso objetivo é ajudar os usuários a entender por que os modelos de idiomas geram as respostas que fazem".
Como funciona o Olmotrace: mais do que apenas citações
Embora os LLMs como perplexidade ou pesquisa de chatgpt possam oferecer citações de origem, eles operam de maneira diferente do Olmotrace. Segundo Liu, esses modelos usam a geração de recuperação de recuperação (RAG), que visa aprimorar a qualidade da saída do modelo, incorporando fontes adicionais além dos dados de treinamento. Por outro lado, o Olmotrace rastreia a saída do modelo diretamente de volta ao corpus de treinamento sem depender de documentos de pano ou externo.
A ferramenta identifica seqüências de texto exclusivas nas saídas do modelo e as correspondem a documentos específicos dos dados de treinamento. Quando uma correspondência é encontrada, o Olmotrace não apenas destaca o texto relevante, mas também fornece links para o material de origem original. Isso permite que os usuários vejam exatamente onde e como o modelo aprendeu as informações que ele usa.
Além das pontuações de confiança: evidência tangível de tomada de decisão de IA
Os LLMs geralmente geram saídas com base em pesos do modelo, que são usados para calcular uma pontuação de confiança. Quanto maior a pontuação, mais supostamente precisa a saída. No entanto, Liu acredita que essas pontuações podem ser enganosas. "Os modelos podem confiar demais nas coisas que eles geram e, se você pedir que eles geram uma pontuação, geralmente é inflado", explicou. "É isso que os acadêmicos chamam de erro de calibração - a confiança de que os modelos de saída nem sempre refletem o quão precisa são suas respostas".
Em vez de confiar em pontuações potencialmente enganosas, a Olmotrace oferece evidências diretas das fontes de aprendizado do modelo, permitindo que os usuários façam julgamentos informados. "O que o Olmotrace faz é mostrar as correspondências entre as saídas do modelo e os documentos de treinamento", disse Liu. "Através da interface, você pode ver diretamente onde estão os pontos de correspondência e como os resultados do modelo coincidem com os documentos de treinamento".
Como o Olmotrace se compara a outras abordagens de transparência
O AI2 não é a única organização que trabalha para entender melhor as saídas do LLM. A antropia também conduziu pesquisas, mas seu foco está nas operações internas do modelo e não nos seus dados. Liu destacou a diferença: "Estamos adotando uma abordagem diferente deles. Estamos rastreando diretamente o comportamento do modelo, em seus dados de treinamento, em oposição a rastrear as coisas nos neurônios modelo, circuitos internos, esse tipo de coisa".
Essa abordagem torna o Olmotrace mais prático para aplicativos corporativos, pois não requer conhecimento profundo da arquitetura de rede neural para entender os resultados.
Aplicativos da IA corporativa: da conformidade regulatória à depuração do modelo
Para empresas que implantam IA em setores regulamentados como serviços de saúde, finanças ou serviços jurídicos, a Olmotrace oferece benefícios significativos em relação aos sistemas tradicionais de caixa preta. "Achamos que o Olmotrace ajudará os usuários empresariais e empresariais a entender melhor o que é usado no treinamento dos modelos, para que eles possam estar mais confiantes quando desejam construir em cima deles", afirmou Liu. "Isso pode ajudar a aumentar a transparência e a confiança entre eles de seus modelos e também para os clientes de seus comportamentos modelo".
A tecnologia permite vários recursos importantes para as equipes da IA corporativa:
- Saídas do modelo de verificação de fatos contra fontes originais
- Compreendendo as origens das alucinações
- Melhorando a depuração do modelo, identificando padrões problemáticos
- Melhorando a conformidade regulatória por meio de rastreabilidade de dados
- Construindo confiança com as partes interessadas através do aumento da transparência
A equipe do AI2 já colocou o Olmotrace em bom uso. "Já estamos usando para melhorar nossos dados de treinamento", revelou Liu. "Quando construímos o Olmo 2 e iniciamos nosso treinamento, através da Olmotrace, descobrimos que na verdade alguns dos dados pós-treinamento não eram bons".
O que isso significa para a adoção da IA corporativa
Para as empresas que visam estar na vanguarda da adoção de IA, a OLMOTRACE marca um avanço significativo em relação aos sistemas de IA mais responsáveis. A ferramenta está disponível sob uma licença de código aberto Apache 2.0, o que significa que qualquer organização com acesso aos dados de treinamento de seu modelo pode implementar recursos de rastreamento semelhantes.
"O Olmotrace pode funcionar em qualquer modelo, desde que você tenha os dados de treinamento do modelo", observou Liu. "Para modelos totalmente abertos, onde todos têm acesso aos dados de treinamento do modelo, qualquer pessoa pode configurar o OLMOTRACE para esse modelo e para modelos proprietários, talvez alguns provedores não queiram lançar seus dados, eles também podem fazer esse olmotrato internamente".
À medida que as estruturas globais de governança da IA evoluem, é provável que ferramentas como o OLMOTRACE que permitam a verificação e auditabilidade se tornem componentes cruciais das pilhas de IA corporativa, especialmente em indústrias regulamentadas onde a transparência é cada vez mais necessária. Para os tomadores de decisão técnicos, considerando os prós e os contras da adoção de IA, o Olmotrace fornece uma maneira prática de implementar sistemas de IA mais confiáveis e explicáveis, sem comprometer o poder de grandes modelos de linguagem.












