클로드 오푸스 4.7, 인공지능보다 신뢰성을 중시하며 출시
Anthropic은 올해도 거의 이틀에 한 번꼴로 새로운 기능을 출시하며 공격적인 행보를 이어가고 있습니다. 많은 기대를 모았던 Claude Opus 4.7이 방금 공식 출시되었는데, 흥미롭게도 Anthropic은 발표문에서 “이 모델이 우리가 개발한 가장 강력한 모델은 아닙니다”라고 솔직하게 밝혔습니다. 소문으로만 돌던 더 강력한 'Claude Mythos Preview'는 여전히 대기 상태입니다. 그럼에도 불구하고 Opus 4.7은 "더 똑똑해지는 것"보다는 "더 신뢰할 수 있게 되는 것"이라는 과제를 해결했다는 점에서 상당한 관심을 불러일으켰습니다.

벤치마크 결과는 특히 인상적이다. 엄격한 코딩 벤치마크인 SWE-bench Pro에서 4.7은 이전 버전의 53.4%에서 64.3%로 약 11%포인트 상승하며 GPT-5.4(57.7%)와 Gemini 3.1 Pro(54.2%)를 앞질렀습니다. 시각 추론 벤치마크인 CharXiv에서는 새로 추가된 2576픽셀 장변 인식 기능 덕분에 69.1%에서 82.1%로 상승했으며, 이는 이전 모델보다 3배 이상 선명한 성능을 제공합니다. 도구 호출 평가인 MCP-Atlas에서는 77.3%를 기록했으며, 법률 AI 플랫폼인 Harvey의 BigLaw 벤치마크에서는 90.9%를 달성했습니다. 그러나 에이전트 검색 평가인 BrowseComp에서는 4.7이 83.7%에서 79.3%로 소폭 하락하여 GPT-5.4와 Gemini에 뒤처졌습니다. 이는 정보가 불완전할 때 추측하기보다는 오류를 보고하는 것을 선호하는 "허위 정보 없음"이라는 성격 때문으로 보입니다.
수치 이상의 변화로, 성격의 변화가 더욱 주목할 만하다. Replit의 리더는 테스트 후 다음과 같이 언급했습니다. "기술적 논의에서 저에게 도전 과제를 제시하고, 더 나은 결정을 내리는 데 도움을 주며, 진정으로 더 나은 동료처럼 행동합니다." 데이터 과학 플랫폼 Hex 또한 4.7 버전이 데이터가 누락되었을 때 이전처럼 "겉보기에는 타당해 보이지만 완전히 잘못된" 대체 값을 제공하는 대신 오류를 직접 보고한다는 점을 관찰했습니다. 동시에 작업 회복력도 크게 향상되었습니다. Notion 팀의 테스트에 따르면, 이 도구의 오류율은 이전 수준의 3분의 1로 감소했으며, 툴 체인이 실패하더라도 장애물을 극복하고 독립적으로 작업을 완료할 수 있는 것으로 나타났습니다. Vercel은 심지어 새로운 행동 양식을 발견하기도 했습니다. 4.7은 시스템 수준의 코드를 작성하기 전에 먼저 스스로 수학적 증명을 수행합니다.

물론, 향상된 기능에는 대가가 따릅니다. 4.7 버전은 새로운 토큰화기를 도입하여 동일한 텍스트에 대해 1~1.35배 더 많은 토큰을 생성합니다. 또한 복잡한 작업에 대해 "조금 더 오래 생각하는" 경향이 있어, 실제 소비량은 거의 확실하게 더 높을 것입니다. 이를 해결하기 위해 Anthropic은 'xhigh'라는 초고강도 사고 레벨을 추가했습니다. Claude Code는 모든 패키지를 기본적으로 이 레벨로 설정했으며, 개발자가 토큰 사용량을 관리할 수 있도록 돕기 위해 'Deep Review' 명령어(/ultrareview), Max 사용자용 'Auto Mode' 확장 기능, 그리고 '작업 예산(task budget)' 기능의 공개 베타 버전을 출시했습니다.
더 강력한 Mythos Preview는 최근 사이버 보안 연구를 위해 "Project Glasswing"이라는 이름으로 기업용 서비스로 제공되기 시작했으나, 압도적인 성능과 미완성된 보안 평가로 인해 아직 공개되지 않았습니다.
오늘 출시된 4.7 버전은 Anthropic의 고주파 릴리스 주기에 있어 최신 이정표입니다. Mythos는 결국 출시될 것이며, 그때가 되면 이미 강력한 4.7 버전이 단지 시작에 불과했음을 증명해 보일지도 모릅니다.
관련 기사
수노(Suno)의 주요 투자자: 게시물 삭제로는 저작권 소송의 허점을 메울 수 없다
많은 기대를 모았던 AI 음악 생성 플랫폼 ‘수노(Suno)’가 치열한 저작권 분쟁에 휘말린 가운데, 이 플랫폼의 주요 투자자가 한 솔직한 발언이 상대방 측이 바랐던 바로 그 증거를 제공해 준 것으로 보인다. Suno의 핵심 투자사인 멘로 벤처스(Menlo Ventures)의 파트너 C.C. 공은 최근 회사의 현재 법적 방어 전략과 정면으로 배치되는 트윗을
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
관련 특별 주제 추천
의견 (0)
0/500
Anthropic은 올해도 거의 이틀에 한 번꼴로 새로운 기능을 출시하며 공격적인 행보를 이어가고 있습니다. 많은 기대를 모았던 Claude Opus 4.7이 방금 공식 출시되었는데, 흥미롭게도 Anthropic은 발표문에서 “이 모델이 우리가 개발한 가장 강력한 모델은 아닙니다”라고 솔직하게 밝혔습니다. 소문으로만 돌던 더 강력한 'Claude Mythos Preview'는 여전히 대기 상태입니다. 그럼에도 불구하고 Opus 4.7은 "더 똑똑해지는 것"보다는 "더 신뢰할 수 있게 되는 것"이라는 과제를 해결했다는 점에서 상당한 관심을 불러일으켰습니다.

벤치마크 결과는 특히 인상적이다. 엄격한 코딩 벤치마크인 SWE-bench Pro에서 4.7은 이전 버전의 53.4%에서 64.3%로 약 11%포인트 상승하며 GPT-5.4(57.7%)와 Gemini 3.1 Pro(54.2%)를 앞질렀습니다. 시각 추론 벤치마크인 CharXiv에서는 새로 추가된 2576픽셀 장변 인식 기능 덕분에 69.1%에서 82.1%로 상승했으며, 이는 이전 모델보다 3배 이상 선명한 성능을 제공합니다. 도구 호출 평가인 MCP-Atlas에서는 77.3%를 기록했으며, 법률 AI 플랫폼인 Harvey의 BigLaw 벤치마크에서는 90.9%를 달성했습니다. 그러나 에이전트 검색 평가인 BrowseComp에서는 4.7이 83.7%에서 79.3%로 소폭 하락하여 GPT-5.4와 Gemini에 뒤처졌습니다. 이는 정보가 불완전할 때 추측하기보다는 오류를 보고하는 것을 선호하는 "허위 정보 없음"이라는 성격 때문으로 보입니다.
수치 이상의 변화로, 성격의 변화가 더욱 주목할 만하다. Replit의 리더는 테스트 후 다음과 같이 언급했습니다. "기술적 논의에서 저에게 도전 과제를 제시하고, 더 나은 결정을 내리는 데 도움을 주며, 진정으로 더 나은 동료처럼 행동합니다." 데이터 과학 플랫폼 Hex 또한 4.7 버전이 데이터가 누락되었을 때 이전처럼 "겉보기에는 타당해 보이지만 완전히 잘못된" 대체 값을 제공하는 대신 오류를 직접 보고한다는 점을 관찰했습니다. 동시에 작업 회복력도 크게 향상되었습니다. Notion 팀의 테스트에 따르면, 이 도구의 오류율은 이전 수준의 3분의 1로 감소했으며, 툴 체인이 실패하더라도 장애물을 극복하고 독립적으로 작업을 완료할 수 있는 것으로 나타났습니다. Vercel은 심지어 새로운 행동 양식을 발견하기도 했습니다. 4.7은 시스템 수준의 코드를 작성하기 전에 먼저 스스로 수학적 증명을 수행합니다.

물론, 향상된 기능에는 대가가 따릅니다. 4.7 버전은 새로운 토큰화기를 도입하여 동일한 텍스트에 대해 1~1.35배 더 많은 토큰을 생성합니다. 또한 복잡한 작업에 대해 "조금 더 오래 생각하는" 경향이 있어, 실제 소비량은 거의 확실하게 더 높을 것입니다. 이를 해결하기 위해 Anthropic은 'xhigh'라는 초고강도 사고 레벨을 추가했습니다. Claude Code는 모든 패키지를 기본적으로 이 레벨로 설정했으며, 개발자가 토큰 사용량을 관리할 수 있도록 돕기 위해 'Deep Review' 명령어(/ultrareview), Max 사용자용 'Auto Mode' 확장 기능, 그리고 '작업 예산(task budget)' 기능의 공개 베타 버전을 출시했습니다.
더 강력한 Mythos Preview는 최근 사이버 보안 연구를 위해 "Project Glasswing"이라는 이름으로 기업용 서비스로 제공되기 시작했으나, 압도적인 성능과 미완성된 보안 평가로 인해 아직 공개되지 않았습니다.
오늘 출시된 4.7 버전은 Anthropic의 고주파 릴리스 주기에 있어 최신 이정표입니다. Mythos는 결국 출시될 것이며, 그때가 되면 이미 강력한 4.7 버전이 단지 시작에 불과했음을 증명해 보일지도 모릅니다.
수노(Suno)의 주요 투자자: 게시물 삭제로는 저작권 소송의 허점을 메울 수 없다
많은 기대를 모았던 AI 음악 생성 플랫폼 ‘수노(Suno)’가 치열한 저작권 분쟁에 휘말린 가운데, 이 플랫폼의 주요 투자자가 한 솔직한 발언이 상대방 측이 바랐던 바로 그 증거를 제공해 준 것으로 보인다. Suno의 핵심 투자사인 멘로 벤처스(Menlo Ventures)의 파트너 C.C. 공은 최근 회사의 현재 법적 방어 전략과 정면으로 배치되는 트윗을
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의





집






