LLM 내부는 무엇입니까? ai2 olmotrace는 소스를 '추적'합니다
2025년 4월 21일
LawrenceJones
59

LLM (Lange Model)의 출력 (LLM)과 교육 데이터 간의 연결을 이해하는 것은 항상 엔터프라이즈 IT를위한 약간의 퍼즐이었습니다. 이번 주 Alen Institute for AI (AI2)는 Olmotrace라는 흥미 진진한 새로운 오픈 소스 이니셔티브를 시작 하여이 관계를 비난하는 것을 목표로했습니다. Olmotrace는 사용자가 LLM 출력을 원래 교육 데이터로 추적 할 수있게함으로써 Enterprise AI 채택에 가장 큰 장애물 중 하나를 다루고 있습니다. AI 의사 결정 프로세스의 투명성 부족.
오픈 언어 모델을 나타내는 Olmo는 AI2의 오픈 소스 LLM의 이름입니다. AI2의 놀이터 사이트에서 최신 OLMO 2 32B 모델로 Olmotrace를 시도해 볼 수 있습니다. 또한 오픈 소스 코드는 Github의 잡기에 적합하므로 누구나 자유롭게 사용할 수 있습니다.
Olmotrace를 신뢰 점수 또는 검색된 세대에 중점을 둔 다른 방법과 다른 방법과 차별화하는 것은 모델 출력이이를 형성하는 광대 한 교육 데이터 세트와 어떻게 관련이 있는지에 대한 명확한 견해를 제공한다는 것입니다. AI2의 연구원 인 Jiacheng Liu는 VentureBeat에 "우리의 목표는 사용자가 언어 모델이 자신이하는 응답을 생성하는 이유를 이해하도록 돕는 것"이라고 말했다.
Olmotrace의 작동 방식 : 단순한 인용 이상
Perplexity 또는 Chatgpt 검색과 같은 LLM은 소스 인용을 제공 할 수 있지만 Olmotrace와 다르게 작동합니다. LIU에 따르면,이 모델들은 검색 된 세대 (RAG)를 사용하여 교육 데이터 이외의 추가 소스를 통합하여 모델 출력 품질을 향상시키는 것을 목표로합니다. 반면, Olmotrace는 Rag 또는 외부 문서에 의존하지 않고 모델의 출력을 훈련 코퍼스로 직접 추적합니다.
이 도구는 모델 출력에서 고유 한 텍스트 시퀀스를 식별하고 교육 데이터의 특정 문서와 일치시킵니다. 일치가 발견되면 Olmotrace는 관련 텍스트를 강조 할뿐만 아니라 원래 소스 자료에 대한 링크도 제공합니다. 이를 통해 사용자는 모델이 사용하는 정보를 어디서 어떻게 배웠는지 정확하게 볼 수 있습니다.
신뢰 점수를 넘어서 : AI 의사 결정의 실질적인 증거
LLM은 일반적으로 신뢰 점수를 계산하는 데 사용되는 모델 가중치에 따라 출력을 생성합니다. 점수가 높을수록 출력이 더 정확합니다. 그러나 Liu는 이러한 점수가 오도 될 수 있다고 생각합니다. "모델은 그들이 생성하는 물건에 대해 과신 할 수 있으며, 점수를 생성하도록 요청하면 일반적으로 팽창된다"고 그는 설명했다. "이것이 학계가 교정 오류라고 부르는 것입니다. 모델 출력이 항상 자신의 반응이 얼마나 정확한 지 항상 반영되는 것은 아닙니다."
Olmotrace는 잠재적으로 오도하는 점수에 의존하는 대신 모델의 학습 소스에 대한 직접적인 증거를 제공하여 사용자가 정보에 입각 한 판단을 내릴 수있게합니다. Liu는“Olmotrace가하는 일은 모델 출력과 교육 문서 간의 일치를 보여주는 것입니다. "인터페이스를 통해 일치 포인트의 위치와 모델 출력이 교육 문서와 일치하는 방법을 직접 확인할 수 있습니다."
Olmotrace가 다른 투명성 접근법과 비교하는 방법
AI2만이 LLM 출력을 더 잘 이해하기 위해 노력하는 유일한 조직은 아닙니다. Anthropic은 또한 연구를 수행했지만 데이터가 아닌 모델의 내부 작업에 중점을 두었습니다. Liu는 차이점을 강조했다. "우리는 그들과 다른 접근 방식을 취하고있다. 우리는 모델 뉴런, 내부 회로, 그런 종류의 일을 추적하는 것과는 달리 모델 동작, 훈련 데이터로 직접 추적하고있다."
이 접근법은 결과를 이해하기 위해 신경망 아키텍처에 대한 심층적 인 지식이 필요하지 않기 때문에 Olmotrace는 엔터프라이즈 애플리케이션에 더 실용적으로 만듭니다.
Enterprise AI 응용 프로그램 : 규제 준수에서 모델 디버깅에 이르기까지
의료, 금융 또는 법률 서비스와 같은 규제 부문에 AI를 배치하는 비즈니스의 경우 Olmotrace는 전통적인 블랙 박스 시스템에 비해 상당한 이점을 제공합니다. Liu는“Olmotrace는 엔터프라이즈 및 비즈니스 사용자가 모델 교육에 사용되는 내용을 더 잘 이해하여 모델을 구축하고 싶을 때 더 자신감을 가질 수 있도록 도와 줄 것이라고 생각합니다. "이것은 모델의 투명성과 신뢰를 높이는 데 도움이 될 수 있으며 모델 행동의 고객에게도 도움이 될 수 있습니다."
이 기술은 Enterprise AI 팀을위한 몇 가지 주요 기능을 가능하게합니다.
- 원래 소스에 대한 사실 확인 모델 출력
- 환각의 기원을 이해합니다
- 문제가있는 패턴을 식별하여 모델 디버깅 향상
- 데이터 추적 성을 통한 규제 준수 향상
- 투명성 증가를 통해 이해 관계자와의 신뢰를 구축합니다
AI2 팀은 이미 Olmotrace를 잘 활용했습니다. Liu는“우리는 이미 교육 데이터를 개선하기 위해 사용하고 있습니다. "우리가 Olmo 2를 만들었고 Olmotrace를 통해 훈련을 시작했을 때, 우리는 실제로 훈련 후 데이터 중 일부가 좋지 않다는 것을 알았습니다."
이것이 Enterprise AI 채택의 의미
AI 채택의 최전선에 서기를 목표로하는 기업의 경우 Olmotrace는보다 책임있는 AI 시스템에 대한 상당한 발전을 나타냅니다. 이 도구는 Apache 2.0 오픈 소스 라이센스에 따라 사용할 수 있습니다. 즉, 모델의 교육 데이터에 액세스 할 수있는 모든 조직은 유사한 추적 기능을 구현할 수 있습니다.
Liu는“Olmotrace는 모델의 교육 데이터가있는 한 모든 모델에서 작동 할 수 있습니다. "모든 사람이 모델의 교육 데이터에 액세스 할 수있는 완전 개방형 모델의 경우 누구나 해당 모델을 위해 Olmotrace를 설정할 수 있으며 일부 제공 업체는 데이터를 공개하고 싶지 않을 수도 있습니다.이 olmotrace를 내부적으로 수행 할 수도 있습니다."
글로벌 AI 거버넌스 프레임 워크가 발전함에 따라, 검증 및 감사를 가능하게하는 olmotrace와 같은 도구는 특히 투명성이 점점 더 필요한 규제 산업에서 엔터프라이즈 AI 스택의 중요한 구성 요소가 될 수 있습니다. AI 채택의 장단점을 고려하는 기술 의사 결정자에게 Olmotrace는 대형 언어 모델의 힘을 손상시키지 않으면 서보다 신뢰할 수 있고 설명 가능한 AI 시스템을 구현할 수있는 실용적인 방법을 제공합니다.
관련 기사
배치 데이터 처리는 실시간 AI에 비해 너무 느립니다. 오픈 소스 Apache Airflow 3.0이 이벤트 중심의 데이터 오케스트레이션으로 도전을 해결하는 방법
다양한 소스에서 AI 애플리케이션에 적합한 장소로 데이터를 이동하는 것은 작은 위업이 아닙니다. 이곳은 Apache Airflow와 같은 데이터 오케스트레이션 도구가 작동하여 프로세스를 더 부드럽고 효율적으로 만듭니다. Apache Airflow Community는 Ye에서 가장 중요한 업데이트를 방금 출시했습니다.
전 Deepseeker 및 Collaborators는 신뢰할 수있는 AI 에이전트를 훈련하기위한 새로운 방법을 발표합니다 : Ragen
AI 에이전트의 해 : 2025 년의 기대와 현실 2025를 자세히 살펴보면 AI 에이전트가 OpenAi, Anthropic, Google 및 Deepseek와 같은 회사의 고급 대형 언어 및 멀티 모달 모델로 구동되는 AI 시스템에 따라 AI 에이전트가 구체화 된 해로 많은 전문가들에 의해 예고되었습니다.
Claude 3.5 Sonnet은 Chatgpt가 지배하는 AI 코딩 테스트에서 창의적으로 투쟁
Anthropic의 New Claude 3.5 Sonnetlast Week의 기능을 테스트하면서 Claude 3.5 Sonnet의 출시를 알리는 전자 메일을 받았습니다. 그들은 "인텔리전스의 업계 바를 높이고, 경쟁 업체 모델을 능가하고, 광범위한 평가에 대한 클로드 3 Opus"라고 자랑했습니다. 티
의견 (0)
0/200






LLM (Lange Model)의 출력 (LLM)과 교육 데이터 간의 연결을 이해하는 것은 항상 엔터프라이즈 IT를위한 약간의 퍼즐이었습니다. 이번 주 Alen Institute for AI (AI2)는 Olmotrace라는 흥미 진진한 새로운 오픈 소스 이니셔티브를 시작 하여이 관계를 비난하는 것을 목표로했습니다. Olmotrace는 사용자가 LLM 출력을 원래 교육 데이터로 추적 할 수있게함으로써 Enterprise AI 채택에 가장 큰 장애물 중 하나를 다루고 있습니다. AI 의사 결정 프로세스의 투명성 부족.
오픈 언어 모델을 나타내는 Olmo는 AI2의 오픈 소스 LLM의 이름입니다. AI2의 놀이터 사이트에서 최신 OLMO 2 32B 모델로 Olmotrace를 시도해 볼 수 있습니다. 또한 오픈 소스 코드는 Github의 잡기에 적합하므로 누구나 자유롭게 사용할 수 있습니다.
Olmotrace를 신뢰 점수 또는 검색된 세대에 중점을 둔 다른 방법과 다른 방법과 차별화하는 것은 모델 출력이이를 형성하는 광대 한 교육 데이터 세트와 어떻게 관련이 있는지에 대한 명확한 견해를 제공한다는 것입니다. AI2의 연구원 인 Jiacheng Liu는 VentureBeat에 "우리의 목표는 사용자가 언어 모델이 자신이하는 응답을 생성하는 이유를 이해하도록 돕는 것"이라고 말했다.
Olmotrace의 작동 방식 : 단순한 인용 이상
Perplexity 또는 Chatgpt 검색과 같은 LLM은 소스 인용을 제공 할 수 있지만 Olmotrace와 다르게 작동합니다. LIU에 따르면,이 모델들은 검색 된 세대 (RAG)를 사용하여 교육 데이터 이외의 추가 소스를 통합하여 모델 출력 품질을 향상시키는 것을 목표로합니다. 반면, Olmotrace는 Rag 또는 외부 문서에 의존하지 않고 모델의 출력을 훈련 코퍼스로 직접 추적합니다.
이 도구는 모델 출력에서 고유 한 텍스트 시퀀스를 식별하고 교육 데이터의 특정 문서와 일치시킵니다. 일치가 발견되면 Olmotrace는 관련 텍스트를 강조 할뿐만 아니라 원래 소스 자료에 대한 링크도 제공합니다. 이를 통해 사용자는 모델이 사용하는 정보를 어디서 어떻게 배웠는지 정확하게 볼 수 있습니다.
신뢰 점수를 넘어서 : AI 의사 결정의 실질적인 증거
LLM은 일반적으로 신뢰 점수를 계산하는 데 사용되는 모델 가중치에 따라 출력을 생성합니다. 점수가 높을수록 출력이 더 정확합니다. 그러나 Liu는 이러한 점수가 오도 될 수 있다고 생각합니다. "모델은 그들이 생성하는 물건에 대해 과신 할 수 있으며, 점수를 생성하도록 요청하면 일반적으로 팽창된다"고 그는 설명했다. "이것이 학계가 교정 오류라고 부르는 것입니다. 모델 출력이 항상 자신의 반응이 얼마나 정확한 지 항상 반영되는 것은 아닙니다."
Olmotrace는 잠재적으로 오도하는 점수에 의존하는 대신 모델의 학습 소스에 대한 직접적인 증거를 제공하여 사용자가 정보에 입각 한 판단을 내릴 수있게합니다. Liu는“Olmotrace가하는 일은 모델 출력과 교육 문서 간의 일치를 보여주는 것입니다. "인터페이스를 통해 일치 포인트의 위치와 모델 출력이 교육 문서와 일치하는 방법을 직접 확인할 수 있습니다."
Olmotrace가 다른 투명성 접근법과 비교하는 방법
AI2만이 LLM 출력을 더 잘 이해하기 위해 노력하는 유일한 조직은 아닙니다. Anthropic은 또한 연구를 수행했지만 데이터가 아닌 모델의 내부 작업에 중점을 두었습니다. Liu는 차이점을 강조했다. "우리는 그들과 다른 접근 방식을 취하고있다. 우리는 모델 뉴런, 내부 회로, 그런 종류의 일을 추적하는 것과는 달리 모델 동작, 훈련 데이터로 직접 추적하고있다."
이 접근법은 결과를 이해하기 위해 신경망 아키텍처에 대한 심층적 인 지식이 필요하지 않기 때문에 Olmotrace는 엔터프라이즈 애플리케이션에 더 실용적으로 만듭니다.
Enterprise AI 응용 프로그램 : 규제 준수에서 모델 디버깅에 이르기까지
의료, 금융 또는 법률 서비스와 같은 규제 부문에 AI를 배치하는 비즈니스의 경우 Olmotrace는 전통적인 블랙 박스 시스템에 비해 상당한 이점을 제공합니다. Liu는“Olmotrace는 엔터프라이즈 및 비즈니스 사용자가 모델 교육에 사용되는 내용을 더 잘 이해하여 모델을 구축하고 싶을 때 더 자신감을 가질 수 있도록 도와 줄 것이라고 생각합니다. "이것은 모델의 투명성과 신뢰를 높이는 데 도움이 될 수 있으며 모델 행동의 고객에게도 도움이 될 수 있습니다."
이 기술은 Enterprise AI 팀을위한 몇 가지 주요 기능을 가능하게합니다.
- 원래 소스에 대한 사실 확인 모델 출력
- 환각의 기원을 이해합니다
- 문제가있는 패턴을 식별하여 모델 디버깅 향상
- 데이터 추적 성을 통한 규제 준수 향상
- 투명성 증가를 통해 이해 관계자와의 신뢰를 구축합니다
AI2 팀은 이미 Olmotrace를 잘 활용했습니다. Liu는“우리는 이미 교육 데이터를 개선하기 위해 사용하고 있습니다. "우리가 Olmo 2를 만들었고 Olmotrace를 통해 훈련을 시작했을 때, 우리는 실제로 훈련 후 데이터 중 일부가 좋지 않다는 것을 알았습니다."
이것이 Enterprise AI 채택의 의미
AI 채택의 최전선에 서기를 목표로하는 기업의 경우 Olmotrace는보다 책임있는 AI 시스템에 대한 상당한 발전을 나타냅니다. 이 도구는 Apache 2.0 오픈 소스 라이센스에 따라 사용할 수 있습니다. 즉, 모델의 교육 데이터에 액세스 할 수있는 모든 조직은 유사한 추적 기능을 구현할 수 있습니다.
Liu는“Olmotrace는 모델의 교육 데이터가있는 한 모든 모델에서 작동 할 수 있습니다. "모든 사람이 모델의 교육 데이터에 액세스 할 수있는 완전 개방형 모델의 경우 누구나 해당 모델을 위해 Olmotrace를 설정할 수 있으며 일부 제공 업체는 데이터를 공개하고 싶지 않을 수도 있습니다.이 olmotrace를 내부적으로 수행 할 수도 있습니다."
글로벌 AI 거버넌스 프레임 워크가 발전함에 따라, 검증 및 감사를 가능하게하는 olmotrace와 같은 도구는 특히 투명성이 점점 더 필요한 규제 산업에서 엔터프라이즈 AI 스택의 중요한 구성 요소가 될 수 있습니다. AI 채택의 장단점을 고려하는 기술 의사 결정자에게 Olmotrace는 대형 언어 모델의 힘을 손상시키지 않으면 서보다 신뢰할 수 있고 설명 가능한 AI 시스템을 구현할 수있는 실용적인 방법을 제공합니다.












