새로운 벤치마크, AI 에이전트의 업무 준비도 의문 제기
거의 2년 전, 마이크로소프트 CEO 사티아 나델라는 인공지능이 지식 노동—변호사, 투자은행가, 사서, 회계사, IT 전문가 및 유사한 화이트칼라 직종의 영역—을 재편할 것이라고 예측했다.
그러나 기초 모델의 상당한 발전에도 불구하고 지식 노동의 변혁은 더딘 모습을 보이고 있다. 모델들이 심층 연구와 행위적 계획 수립에 탁월함에도 불구하고, 대부분의 화이트칼라 직업군은 아직까지 불분명한 이유로 상대적으로 적은 수준의 변화를 경험하고 있다.
이는 인공지능의 큰 수수께끼 중 하나로 남아 있다. 훈련 데이터 분야의 선도 기업 머코어(Mercor)의 새로운 연구가 이제 중요한 통찰력을 제공하고 있다.
이 연구는 컨설팅, 투자은행, 법률 분야의 실제 화이트칼라 업무를 최상위 AI 모델들이 어떻게 처리하는지 평가했다. 이를 통해 APEX-Agents 벤치마크가 개발되었으며, 현재 모든 AI 연구실은 이 벤치마크에서 실패하고 있다. 실제 전문가들의 질의를 제시했을 때, 최고 성능 모델조차도 4분의 1 미만만 정확히 답변했다. 대부분은 잘못된 답변을 제공하거나 아예 답변을 하지 못했다.
연구에 참여한 머코어의 브렌던 푸디 CEO에 따르면, 모델의 주요 약점은 인간 지식 작업의 핵심 요소인 다중 영역에 걸친 정보 종합 능력이었다.
푸디는 테크크런치와의 인터뷰에서 "이 벤치마크의 핵심 혁신은 실제 전문 서비스를 모델링한 완전한 환경을 구축했다는 점"이라며 "우리 작업은 한 사람이 모든 맥락을 한곳에서 제공하는 방식이 아닙니다. 현실에서는 슬랙, 구글 드라이브 등 다양한 도구를 넘나들며 작업하죠"라고 설명했다. 많은 에이전트형 AI 모델에게 이러한 영역 간 추론은 여전히 일관성이 부족하다.

스크린샷 테스트 시나리오는 Mercor의 전문가 마켓플레이스에서 실제 전문가들이 설계한 질의와 성공적인 답변 기준을 바탕으로 구성되었습니다. Hugging Face에 공개된 질문들을 살펴보면 이 작업들의 복잡성을 확인할 수 있습니다.
테크크런치 행사 Disrupt 2026 티켓: 단 한 번의 기회
지금 티켓을 구매하세요! 기간 한정 혜택으로 최대 680달러를 절약하고, 선착순 500명에게 제공되는 +1 패스 50% 할인 혜택을 받으세요. TechCrunch Disrupt는 Google Cloud, Netflix, Microsoft, Box, a16z, Hugging Face 등 최고의 리더들을 한자리에 모아 성장을 촉진하고 경쟁력을 강화하기 위한 250개 이상의 세션을 제공합니다. 수백 개의 혁신적인 스타트업과 교류하고, 거래와 통찰력, 영감을 이끌어내는 맞춤형 네트워킹에 참여하세요.
Disrupt 2026 티켓: 단 한 번의 기회
지금 티켓을 구매하세요! 기간 한정 혜택으로 최대 680달러를 절약하고, 선착순 500명에게 제공되는 +1 패스 50% 할인 혜택을 받으세요. TechCrunch Disrupt는 Google Cloud, Netflix, Microsoft, Box, a16z, Hugging Face 등 최고의 리더들을 한자리에 모아 성장을 촉진하고 경쟁력을 강화하는 250개 이상의 세션을 제공합니다. 수백 개의 혁신적인 스타트업과 교류하고, 거래, 통찰력, 영감을 이끌어내는 선별된 네트워킹에 참여하세요.
샌프란시스코 | 2026년 10월 13-15일 지금 등록하세요 "법률" 섹션의 한 예시 질문:
EU 생산 중단 발생 후 첫 48분 동안 Northstar 엔지니어링 팀은 개인 데이터가 포함된 EU 생산 이벤트 로그를 묶어 한두 세트 미국 분석 업체로 내보냈습니다… Northstar 자체 정책에 따르면, 이러한 한두 차례의 로그 내보내기를 제49조 준수라고 합리적으로 간주할 수 있을까요?
정답은 '예'이지만, 이를 도출하려면 해당 기업의 내부 정책과 관련 EU 개인정보 보호 규정을 모두 상세히 분석해야 합니다.
이 같은 질문은 전문 지식을 갖춘 인간에게도 도전적일 수 있으나, 연구진은 실제 전문직 업무를 모의하는 것을 목표로 했습니다. 이러한 질의에 신뢰성 있게 답변할 수 있는 대규모 언어 모델(LLM)은 현직 변호사 다수를 대체할 잠재력을 지닙니다. 푸디는 테크크런치와의 인터뷰에서 "이는 오늘날 가장 중요한 경제적 주제라 할 수 있다"며 "이 벤치마크는 해당 전문가들이 수행하는 실제 업무를 정확히 반영한다"고 말했습니다.
OpenAI는 이전에 GDPval 벤치마크로 전문 기술을 평가하려 시도했지만, APEX-Agents 테스트는 의미 있게 다릅니다. GDPval이 다양한 분야의 광범위한 일반 지식을 평가하는 반면, APEX-Agents는 선택된 소수 고부가가치 직업 내에서 지속적 업무를 수행하는 시스템의 능력을 측정합니다. 이는 모델에게 더 어려운 과제이며 직업 자동화의 잠재력과 더 직접적으로 관련됩니다.
아직 투자 은행가로 대체할 준비가 된 모델은 없지만, 일부 모델은 다른 모델보다 훨씬 근접한 성과를 보였다. Gemini 3 Flash가 24%의 원샷 정확도로 선두를 달렸고, GPT-5.2가 23%로 그 뒤를 바짝 따랐다. Opus 4.5, Gemini 3 Pro, GPT-5는 모두 약 18%의 점수를 기록했다.
이러한 초기 결과는 기대에 미치지 못하지만, AI 분야는 어려운 벤치마크를 빠르게 극복해온 실적이 있습니다. APEX-Agents 테스트가 공개됨에 따라, 개선 가능성을 확신하는 AI 연구소들에게 공개적인 도전 과제가 제시되었습니다. 푸디는 향후 몇 달 안에 이러한 결과가 나올 것이라고 완전히 예상하고 있습니다.
그는 테크크런치와의 인터뷰에서 "개선 속도가 놀라울 정도로 빠르다"며 "현재 기술은 4분의 1 확률로 정답을 맞히는 인턴 수준이지만, 작년만 해도 5~10% 성공률에 그쳤다. 이러한 연간 진전 속도는 매우 빠르게 상당한 영향을 창출할 수 있다"고 말했다.
관련 기사
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
관련 특별 주제 추천
의견 (0)
0/500
거의 2년 전, 마이크로소프트 CEO 사티아 나델라는 인공지능이 지식 노동—변호사, 투자은행가, 사서, 회계사, IT 전문가 및 유사한 화이트칼라 직종의 영역—을 재편할 것이라고 예측했다.
그러나 기초 모델의 상당한 발전에도 불구하고 지식 노동의 변혁은 더딘 모습을 보이고 있다. 모델들이 심층 연구와 행위적 계획 수립에 탁월함에도 불구하고, 대부분의 화이트칼라 직업군은 아직까지 불분명한 이유로 상대적으로 적은 수준의 변화를 경험하고 있다.
이는 인공지능의 큰 수수께끼 중 하나로 남아 있다. 훈련 데이터 분야의 선도 기업 머코어(Mercor)의 새로운 연구가 이제 중요한 통찰력을 제공하고 있다.
이 연구는 컨설팅, 투자은행, 법률 분야의 실제 화이트칼라 업무를 최상위 AI 모델들이 어떻게 처리하는지 평가했다. 이를 통해 APEX-Agents 벤치마크가 개발되었으며, 현재 모든 AI 연구실은 이 벤치마크에서 실패하고 있다. 실제 전문가들의 질의를 제시했을 때, 최고 성능 모델조차도 4분의 1 미만만 정확히 답변했다. 대부분은 잘못된 답변을 제공하거나 아예 답변을 하지 못했다.
연구에 참여한 머코어의 브렌던 푸디 CEO에 따르면, 모델의 주요 약점은 인간 지식 작업의 핵심 요소인 다중 영역에 걸친 정보 종합 능력이었다.
푸디는 테크크런치와의 인터뷰에서 "이 벤치마크의 핵심 혁신은 실제 전문 서비스를 모델링한 완전한 환경을 구축했다는 점"이라며 "우리 작업은 한 사람이 모든 맥락을 한곳에서 제공하는 방식이 아닙니다. 현실에서는 슬랙, 구글 드라이브 등 다양한 도구를 넘나들며 작업하죠"라고 설명했다. 많은 에이전트형 AI 모델에게 이러한 영역 간 추론은 여전히 일관성이 부족하다.

테스트 시나리오는 Mercor의 전문가 마켓플레이스에서 실제 전문가들이 설계한 질의와 성공적인 답변 기준을 바탕으로 구성되었습니다. Hugging Face에 공개된 질문들을 살펴보면 이 작업들의 복잡성을 확인할 수 있습니다.
테크크런치 행사Disrupt 2026 티켓: 단 한 번의 기회
지금 티켓을 구매하세요! 기간 한정 혜택으로 최대 680달러를 절약하고, 선착순 500명에게 제공되는 +1 패스 50% 할인 혜택을 받으세요. TechCrunch Disrupt는 Google Cloud, Netflix, Microsoft, Box, a16z, Hugging Face 등 최고의 리더들을 한자리에 모아 성장을 촉진하고 경쟁력을 강화하기 위한 250개 이상의 세션을 제공합니다. 수백 개의 혁신적인 스타트업과 교류하고, 거래와 통찰력, 영감을 이끌어내는 맞춤형 네트워킹에 참여하세요.
Disrupt 2026 티켓: 단 한 번의 기회
지금 티켓을 구매하세요! 기간 한정 혜택으로 최대 680달러를 절약하고, 선착순 500명에게 제공되는 +1 패스 50% 할인 혜택을 받으세요. TechCrunch Disrupt는 Google Cloud, Netflix, Microsoft, Box, a16z, Hugging Face 등 최고의 리더들을 한자리에 모아 성장을 촉진하고 경쟁력을 강화하는 250개 이상의 세션을 제공합니다. 수백 개의 혁신적인 스타트업과 교류하고, 거래, 통찰력, 영감을 이끌어내는 선별된 네트워킹에 참여하세요.
샌프란시스코 | 2026년 10월 13-15일 지금 등록하세요"법률" 섹션의 한 예시 질문:
EU 생산 중단 발생 후 첫 48분 동안 Northstar 엔지니어링 팀은 개인 데이터가 포함된 EU 생산 이벤트 로그를 묶어 한두 세트 미국 분석 업체로 내보냈습니다… Northstar 자체 정책에 따르면, 이러한 한두 차례의 로그 내보내기를 제49조 준수라고 합리적으로 간주할 수 있을까요?
정답은 '예'이지만, 이를 도출하려면 해당 기업의 내부 정책과 관련 EU 개인정보 보호 규정을 모두 상세히 분석해야 합니다.
이 같은 질문은 전문 지식을 갖춘 인간에게도 도전적일 수 있으나, 연구진은 실제 전문직 업무를 모의하는 것을 목표로 했습니다. 이러한 질의에 신뢰성 있게 답변할 수 있는 대규모 언어 모델(LLM)은 현직 변호사 다수를 대체할 잠재력을 지닙니다. 푸디는 테크크런치와의 인터뷰에서 "이는 오늘날 가장 중요한 경제적 주제라 할 수 있다"며 "이 벤치마크는 해당 전문가들이 수행하는 실제 업무를 정확히 반영한다"고 말했습니다.
OpenAI는 이전에 GDPval 벤치마크로 전문 기술을 평가하려 시도했지만, APEX-Agents 테스트는 의미 있게 다릅니다. GDPval이 다양한 분야의 광범위한 일반 지식을 평가하는 반면, APEX-Agents는 선택된 소수 고부가가치 직업 내에서 지속적 업무를 수행하는 시스템의 능력을 측정합니다. 이는 모델에게 더 어려운 과제이며 직업 자동화의 잠재력과 더 직접적으로 관련됩니다.
아직 투자 은행가로 대체할 준비가 된 모델은 없지만, 일부 모델은 다른 모델보다 훨씬 근접한 성과를 보였다. Gemini 3 Flash가 24%의 원샷 정확도로 선두를 달렸고, GPT-5.2가 23%로 그 뒤를 바짝 따랐다. Opus 4.5, Gemini 3 Pro, GPT-5는 모두 약 18%의 점수를 기록했다.
이러한 초기 결과는 기대에 미치지 못하지만, AI 분야는 어려운 벤치마크를 빠르게 극복해온 실적이 있습니다. APEX-Agents 테스트가 공개됨에 따라, 개선 가능성을 확신하는 AI 연구소들에게 공개적인 도전 과제가 제시되었습니다. 푸디는 향후 몇 달 안에 이러한 결과가 나올 것이라고 완전히 예상하고 있습니다.
그는 테크크런치와의 인터뷰에서 "개선 속도가 놀라울 정도로 빠르다"며 "현재 기술은 4분의 1 확률로 정답을 맞히는 인턴 수준이지만, 작년만 해도 5~10% 성공률에 그쳤다. 이러한 연간 진전 속도는 매우 빠르게 상당한 영향을 창출할 수 있다"고 말했다.
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격





집






