옵션
뉴스
AI가 멈추지 않는다고 주장하고, 벤치 마크를 능가합니다

AI가 멈추지 않는다고 주장하고, 벤치 마크를 능가합니다

2025년 4월 17일
161

AI가 멈추지 않는다고 주장하고, 벤치 마크를 능가합니다

대형 언어 모델(LLMs) 및 기타 생성 AI 기술은 자체 수정 능력을 크게 향상시키고 있으며, 이는 Anthropic의 부사장인 Michael Gerstenhaber에 따르면 "에이전틱 AI"로 알려진 새로운 응용 프로그램의 길을 열고 있습니다. Anthropic은 선도적인 AI 모델 개발사입니다.

"자체 수정, 자체 추론에서 매우 뛰어난 성과를 내고 있습니다,"라고 Anthropic에서 API 기술을 이끄는 Gerstenhaber는 뉴욕에서 Bloomberg Intelligence의 Anurag Rana와의 인터뷰에서 밝혔습니다. Claude LLM 제품군을 만든 Anthropic은 OpenAI의 GPT 모델과 직접 경쟁합니다. 그는 "몇 달마다 새로운 모델을 출시하며 LLM의 기능을 확장하고 있습니다,"라고 덧붙이며, 각 모델 개정판이 새로운 잠재적 용도를 열어주는 산업의 역동적인 특성을 강조했습니다.

AI 모델의 새로운 기능

Anthropic의 최신 모델은 작업 계획과 같은 기능을 도입하여, 사람이 온라인으로 피자를 주문하는 것처럼 컴퓨터에서 작업을 수행할 수 있게 했습니다. Gerstenhaber는 단계별 작업 실행에 대해 "어제는 불가능했던 중간 단계 계획이 이제 가능해졌습니다,"라고 언급했습니다.

이 논의에는 AI 스타트업 Scale AI의 최고 기술 책임자인 Vijay Karunamurthy도 참여했으며, Bloomberg Intelligence가 주최한 "Gen AI: 생산성 약속을 실현할 수 있을까?"라는 제목의 하루 종일 컨퍼런스의 일부였습니다.

AI 회의론에 대한 도전

Gerstenhaber의 통찰은 생성 AI 및 더 넓은 AI 분야가 "한계에 부딪혔다"고 주장하며, 새로운 모델 반복마다 수익이 감소한다고 보는 AI 회의론자들의 견해에 도전합니다. 예를 들어, AI 학자 Gary Marcus는 2022년부터 AI 모델의 크기(더 많은 매개변수)를 단순히 늘리는 것만으로는 성능이 비례적으로 향상되지 않을 것이라고 경고해 왔습니다.

하지만 Gerstenhaber는 Anthropic이 현재 AI 벤치마크로 측정할 수 있는 것 이상으로 한계를 밀어붙이고 있다고 주장합니다. 그는 "일부 영역에서 진전이 느려 보일 수 있지만, 이는 우리가 완전히 새로운 기능을 열고 있기 때문이며, 벤치마크와 기존 작업 수행 능력은 포화 상태에 이르렀습니다,"라고 설명했습니다. 이로 인해 현재 생성 AI 모델이 달성할 수 있는 전체 범위를 측정하기가 점점 더 어려워지고 있습니다.

확장과 학습

Gerstenhaber와 Karunamurthy는 생성 AI 모델의 자체 수정 능력을 향상시키기 위해 모델을 확장하는 것의 중요성을 강조했습니다. Gerstenhaber는 "우리는 점점 더 많은 지능의 확장을 보고 있습니다,"라고 말했습니다. Karunamurthy는 "계획과 추론에서 한계에 부딪히지 않는다고 믿는 이유 중 하나는 우리가 이러한 작업을 구조화하는 방법을 여전히 배우고 있어 모델이 새롭고 다양한 환경에 적응할 수 있기 때문입니다,"라고 덧붙였습니다.

Gerstenhaber는 동의하며, "우리는 초기 단계에 있으며, 응용 프로그램 개발자들로부터 그들의 필요와 모델의 부족한 점을 배우고, 이를 다시 언어 모델에 통합할 수 있습니다,"라고 말했습니다.

실시간 학습과 적응

Gerstenhaber에 따르면 이러한 진전의 많은 부분은 Anthropic의 기초 연구의 빠른 속도와 산업 피드백으로부터의 실시간 학습에 의해 이루어지고 있습니다. 그는 "우리는 산업이 우리에게 필요하다고 말하는 것에 적응하며 실시간으로 배우고 있습니다,"라고 말했습니다.

고객은 종종 더 큰 모델부터 시작하여 특정 목적에 맞게 더 간단한 모델로 축소합니다. Gerstenhaber는 "처음에는 모델이 작업을 잘 수행할 만큼 충분히 지능적인지 평가하고, 그 다음에는 응용 프로그램 요구를 충족할 만큼 충분히 빠른지, 마지막으로 가능한 한 비용 효율적인지 평가합니다,"라고 설명했습니다.

관련 기사
수노(Suno)의 주요 투자자: 게시물 삭제로는 저작권 소송의 허점을 메울 수 없다 수노(Suno)의 주요 투자자: 게시물 삭제로는 저작권 소송의 허점을 메울 수 없다 많은 기대를 모았던 AI 음악 생성 플랫폼 ‘수노(Suno)’가 치열한 저작권 분쟁에 휘말린 가운데, 이 플랫폼의 주요 투자자가 한 솔직한 발언이 상대방 측이 바랐던 바로 그 증거를 제공해 준 것으로 보인다. Suno의 핵심 투자사인 멘로 벤처스(Menlo Ventures)의 파트너 C.C. 공은 최근 회사의 현재 법적 방어 전략과 정면으로 배치되는 트윗을
클로드 오푸스 4.7, 인공지능보다 신뢰성을 중시하며 출시 클로드 오푸스 4.7, 인공지능보다 신뢰성을 중시하며 출시 Anthropic은 올해도 거의 이틀에 한 번꼴로 새로운 기능을 출시하며 공격적인 행보를 이어가고 있습니다. 많은 기대를 모았던 Claude Opus 4.7이 방금 공식 출시되었는데, 흥미롭게도 Anthropic은 발표문에서 “이 모델이 우리가 개발한 가장 강력한 모델은 아닙니다”라고 솔직하게 밝혔습니다. 소문으로만 돌던 더 강력한 'Claude Mytho
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시 하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시 하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
관련 특별 주제 추천
만화 창작 소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기
소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기

XIX.AI에서 2026년 최고의 소년 만화 AI 생성기를 만나보세요. 엄선된 최고 평점 목록에는 박진감 넘치는 액션 장면과 역동적인 에너지 효과를 연출할 수 있는 강력한 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 여러분의 창의력을 마음껏 발휘하여 오늘 바로 장대한 만화를 만들어 보세요!

15 도구
xix.ai
사업 최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요
최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구
xix.ai
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
의견 (8)
0/500
JoseRoberts
JoseRoberts 2025년 8월 13일 오전 12시 0분 59초 GMT+09:00

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson
WalterAnderson 2025년 7월 31일 오후 8시 35분 39초 GMT+09:00

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez
RonaldMartinez 2025년 7월 22일 오후 4시 39분 52초 GMT+09:00

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson
WillieJackson 2025년 4월 18일 오후 4시 0분 28초 GMT+09:00

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson
GeorgeWilson 2025년 4월 18일 오전 2시 45분 24초 GMT+09:00

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter
NicholasCarter 2025년 4월 17일 오후 8시 27분 31초 GMT+09:00

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

OR