새로운 벤치마크, AI 에이전트의 업무 준비도 의문 제기

집

뉴스

2026년 2월 20일

FrankRodriguez

거의 2년 전, 마이크로소프트 CEO 사티아 나델라는 인공지능이 지식 노동—변호사, 투자은행가, 사서, 회계사, IT 전문가 및 유사한 화이트칼라 직종의 영역—을 재편할 것이라고 예측했다.

그러나 기초 모델의 상당한 발전에도 불구하고 지식 노동의 변혁은 더딘 모습을 보이고 있다. 모델들이 심층 연구와 행위적 계획 수립에 탁월함에도 불구하고, 대부분의 화이트칼라 직업군은 아직까지 불분명한 이유로 상대적으로 적은 수준의 변화를 경험하고 있다.

이는 인공지능의 큰 수수께끼 중 하나로 남아 있다. 훈련 데이터 분야의 선도 기업 머코어(Mercor)의 새로운 연구가 이제 중요한 통찰력을 제공하고 있다.

이 연구는 컨설팅, 투자은행, 법률 분야의 실제 화이트칼라 업무를 최상위 AI 모델들이 어떻게 처리하는지 평가했다. 이를 통해 APEX-Agents 벤치마크가 개발되었으며, 현재 모든 AI 연구실은 이 벤치마크에서 실패하고 있다. 실제 전문가들의 질의를 제시했을 때, 최고 성능 모델조차도 4분의 1 미만만 정확히 답변했다. 대부분은 잘못된 답변을 제공하거나 아예 답변을 하지 못했다.

연구에 참여한 머코어의 브렌던 푸디 CEO에 따르면, 모델의 주요 약점은 인간 지식 작업의 핵심 요소인 다중 영역에 걸친 정보 종합 능력이었다.

푸디는 테크크런치와의 인터뷰에서 "이 벤치마크의 핵심 혁신은 실제 전문 서비스를 모델링한 완전한 환경을 구축했다는 점"이라며 "우리 작업은 한 사람이 모든 맥락을 한곳에서 제공하는 방식이 아닙니다. 현실에서는 슬랙, 구글 드라이브 등 다양한 도구를 넘나들며 작업하죠"라고 설명했다. 많은 에이전트형 AI 모델에게 이러한 영역 간 추론은 여전히 일관성이 부족하다.

스크린샷

테스트 시나리오는 Mercor의 전문가 마켓플레이스에서 실제 전문가들이 설계한 질의와 성공적인 답변 기준을 바탕으로 구성되었습니다. Hugging Face에 공개된 질문들을 살펴보면 이 작업들의 복잡성을 확인할 수 있습니다.

테크크런치 행사

지금 티켓을 구매하세요! 기간 한정 혜택으로 최대 680달러를 절약하고, 선착순 500명에게 제공되는 +1 패스 50% 할인 혜택을 받으세요. TechCrunch Disrupt는 Google Cloud, Netflix, Microsoft, Box, a16z, Hugging Face 등 최고의 리더들을 한자리에 모아 성장을 촉진하고 경쟁력을 강화하기 위한 250개 이상의 세션을 제공합니다. 수백 개의 혁신적인 스타트업과 교류하고, 거래와 통찰력, 영감을 이끌어내는 맞춤형 네트워킹에 참여하세요.

지금 티켓을 구매하세요! 기간 한정 혜택으로 최대 680달러를 절약하고, 선착순 500명에게 제공되는 +1 패스 50% 할인 혜택을 받으세요. TechCrunch Disrupt는 Google Cloud, Netflix, Microsoft, Box, a16z, Hugging Face 등 최고의 리더들을 한자리에 모아 성장을 촉진하고 경쟁력을 강화하는 250개 이상의 세션을 제공합니다. 수백 개의 혁신적인 스타트업과 교류하고, 거래, 통찰력, 영감을 이끌어내는 선별된 네트워킹에 참여하세요.

샌프란시스코 | 2026년 10월 13-15일 지금 등록하세요

"법률" 섹션의 한 예시 질문:

EU 생산 중단 발생 후 첫 48분 동안 Northstar 엔지니어링 팀은 개인 데이터가 포함된 EU 생산 이벤트 로그를 묶어 한두 세트 미국 분석 업체로 내보냈습니다… Northstar 자체 정책에 따르면, 이러한 한두 차례의 로그 내보내기를 제49조 준수라고 합리적으로 간주할 수 있을까요?

정답은 '예'이지만, 이를 도출하려면 해당 기업의 내부 정책과 관련 EU 개인정보 보호 규정을 모두 상세히 분석해야 합니다.

이 같은 질문은 전문 지식을 갖춘 인간에게도 도전적일 수 있으나, 연구진은 실제 전문직 업무를 모의하는 것을 목표로 했습니다. 이러한 질의에 신뢰성 있게 답변할 수 있는 대규모 언어 모델(LLM)은 현직 변호사 다수를 대체할 잠재력을 지닙니다. 푸디는 테크크런치와의 인터뷰에서 "이는 오늘날 가장 중요한 경제적 주제라 할 수 있다"며 "이 벤치마크는 해당 전문가들이 수행하는 실제 업무를 정확히 반영한다"고 말했습니다.

OpenAI는 이전에 GDPval 벤치마크로 전문 기술을 평가하려 시도했지만, APEX-Agents 테스트는 의미 있게 다릅니다. GDPval이 다양한 분야의 광범위한 일반 지식을 평가하는 반면, APEX-Agents는 선택된 소수 고부가가치 직업 내에서 지속적 업무를 수행하는 시스템의 능력을 측정합니다. 이는 모델에게 더 어려운 과제이며 직업 자동화의 잠재력과 더 직접적으로 관련됩니다.

아직 투자 은행가로 대체할 준비가 된 모델은 없지만, 일부 모델은 다른 모델보다 훨씬 근접한 성과를 보였다. Gemini 3 Flash가 24%의 원샷 정확도로 선두를 달렸고, GPT-5.2가 23%로 그 뒤를 바짝 따랐다. Opus 4.5, Gemini 3 Pro, GPT-5는 모두 약 18%의 점수를 기록했다.

이러한 초기 결과는 기대에 미치지 못하지만, AI 분야는 어려운 벤치마크를 빠르게 극복해온 실적이 있습니다. APEX-Agents 테스트가 공개됨에 따라, 개선 가능성을 확신하는 AI 연구소들에게 공개적인 도전 과제가 제시되었습니다. 푸디는 향후 몇 달 안에 이러한 결과가 나올 것이라고 완전히 예상하고 있습니다.

그는 테크크런치와의 인터뷰에서 "개선 속도가 놀라울 정도로 빠르다"며 "현재 기술은 4분의 1 확률로 정답을 맞히는 인턴 수준이지만, 작년만 해도 5~10% 성공률에 그쳤다. 이러한 연간 진전 속도는 매우 빠르게 상당한 영향을 창출할 수 있다"고 말했다.

관련 특별 주제 추천

사업

최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구

xix.ai

생산력

AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구

xix.ai

챗봇

최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구

xix.ai

교육 및 학습

최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구

xix.ai

챗봇

최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구

xix.ai

암호

자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구

xix.ai