lựa chọn
Trang chủ Tin tức Deep Cogito's LLMS vượt trội so với các mô hình có kích thước tương tự bằng IDA

Deep Cogito's LLMS vượt trội so với các mô hình có kích thước tương tự bằng IDA

ngày phát hành ngày phát hành Ngày 18 tháng 4 năm 2025
Tác giả Tác giả JoseAdams
quan điểm quan điểm 90

Deep Cogito, một công ty có trụ sở tại San Francisco, đang tạo nên làn sóng trong cộng đồng AI với bản phát hành mới nhất của các mô hình ngôn ngữ lớn (LLM) mới nhất. Những mô hình này, có nhiều kích cỡ khác nhau, từ 3 tỷ đến 70 tỷ tham số, không chỉ là một bộ công cụ AI khác; Họ là một bước đi táo bạo hướng tới những gì công ty gọi là "tổng giám đốc chung". Deep Cogito tuyên bố rằng mỗi mô hình của họ vượt trội so với các mô hình mở hàng đầu có kích thước tương tự, bao gồm cả các mô hình từ Llama, Deepseek và Qwen, trên hầu hết các điểm chuẩn tiêu chuẩn. Đó là một yêu cầu khá, nhưng điều thậm chí còn ấn tượng hơn là mô hình 70B của họ đã vượt qua mô hình hỗn hợp LLAMA 4 109B được phát hành gần đây (MOE).

Vùi chưng cất và khuếch đại (IDA)

Trọng tâm của bước đột phá của Deep Cogito là một phương pháp đào tạo mới mà họ gọi là chưng cất và khuếch đại lặp đi lặp lại (IDA). Phương pháp này được mô tả là "một chiến lược căn chỉnh có thể mở rộng và hiệu quả cho siêu trực tuyến chung bằng cách sử dụng khả năng tự cải thiện lặp đi lặp lại." Nó được thiết kế để vượt qua những hạn chế của đào tạo LLM truyền thống, trong đó trí thông minh của người mẫu thường chạm một trần được xác định bởi các mô hình "giám sát" lớn hơn hoặc người phụ trách con người.

Quá trình IDA xoay quanh hai bước chính được lặp đi lặp lại:

  • Khuếch đại: Bước này sử dụng sức mạnh tính toán nhiều hơn để giúp mô hình đưa ra các giải pháp hoặc khả năng tốt hơn, giống như các kỹ thuật lý luận nâng cao.
  • Chắt chưng cất: Ở đây, mô hình nội địa hóa các khả năng cải tiến này, tinh chỉnh các tham số của nó.

Deep Cogito lập luận rằng điều này tạo ra một "vòng phản hồi tích cực", cho phép trí thông minh của mô hình phát triển trực tiếp hơn với các tài nguyên tính toán và hiệu quả của quá trình IDA, thay vì bị giới hạn bởi trí thông minh của người giám sát.

Công ty chỉ ra những thành công lịch sử như Alphago, nhấn mạnh rằng "lý luận nâng cao và cải thiện bản thân" là rất quan trọng. Ida, họ tuyên bố, đưa các yếu tố này vào đào tạo LLM. Họ cũng cho thấy hiệu quả của IDA, lưu ý rằng nhóm của họ, mặc dù nhỏ, đã quản lý để phát triển các mô hình này chỉ trong khoảng 75 ngày. Khi so sánh với các phương pháp khác như học tập củng cố từ phản hồi của con người (RLHF) hoặc chưng cất tiêu chuẩn từ các mô hình lớn hơn, IDA được cho là cung cấp khả năng mở rộng tốt hơn.

Để chứng minh, Deep Cogito nêu bật cách mô hình 70b của họ vượt trội so với cả Llama 3.3 70B (được chưng cất từ ​​mô hình 405B) và Llama 4 Scout 109b (được chưng cất từ ​​mô hình tham số 2T).

Khả năng và hiệu suất của các mô hình Cogito sâu

Các mô hình Cogito mới, được xây dựng dựa trên các điểm kiểm tra Llama và Qwen, được điều chỉnh để mã hóa, gọi chức năng và các ứng dụng tác nhân. Một tính năng nổi bật là chức năng kép của chúng: "Mỗi mô hình có thể trả lời trực tiếp (LLM tiêu chuẩn) hoặc tự phản ánh trước khi trả lời (như các mô hình lý luận)." Điều này phản ánh các khả năng được thấy trong các mô hình như Claude 3.5. Tuy nhiên, Deep Cogito đề cập rằng họ không tập trung vào các chuỗi lý luận rất dài, ưu tiên các câu trả lời nhanh hơn và hiệu quả của các chuỗi chắt lọc ngắn hơn.

Công ty đã chia sẻ kết quả điểm chuẩn rộng rãi, so sánh các mô hình Cogito của họ với các mô hình mở hiện đại tương đương kích thước trong cả hai chế độ trực tiếp và lý luận. Trên một loạt các điểm chuẩn như MMLU, MMLU-Pro, ARC, GSM8K và MATH, và trên các kích thước mô hình khác nhau (3B, 8B, 14B, 32B, 70B), các mô hình Cogito thường cho thấy những cải thiện hiệu suất đáng kể. Ví dụ, mô hình Cogito 70B đạt 91,73% trên MMLU ở chế độ tiêu chuẩn, cải thiện +6,40% so với LLAMA 3.3 70B và 91,00% ở chế độ suy nghĩ, tăng +4,40% so với DeepSeek R1 Chất phân từ 70B. Điểm số của LiveBench cũng phản ánh những lợi ích này.

Dưới đây là điểm chuẩn của các mô hình 14B để so sánh cỡ trung bình:

Điểm chuẩn của các mô hình 14B

Mặc dù Deep Cogito thừa nhận rằng các điểm chuẩn không hoàn toàn nắm bắt được tiện ích trong thế giới thực, nhưng chúng vẫn tự tin vào hiệu suất thực tế của các mô hình của họ. Bản phát hành này được coi là một bản xem trước, với công ty nói rằng họ "vẫn đang trong giai đoạn đầu của đường cong tỷ lệ này". Họ có kế hoạch phát hành các điểm kiểm tra được cải thiện cho các kích thước hiện tại và giới thiệu các mô hình MOE lớn hơn (109b, 400b, 671b) trong những tuần và tháng tới. Tất cả các mô hình trong tương lai cũng sẽ là nguồn mở.

Bài viết liên quan
Microsoft 365 Copilot이 향상된 검색, 이미지 및 노트북 기능으로 재 설계 한 공개 Microsoft 365 Copilot이 향상된 검색, 이미지 및 노트북 기능으로 재 설계 한 공개 Microsoft는 비즈니스 요구를 충족 시키도록 설계된 Microsoft 365 Copilot 앱에 대한 새로운 테이크를 출시하고 일반 Copilot의 소비자 친화적 인 기능과 더 밀접하게 통합되었습니다. 업데이트 된 버전은 AI 기반 검색을 자랑하며 OPE를 활용하는 새로운 '생성'기능을 자랑합니다.
AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다 AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다 사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 포스트에 따르면, Gemini
2025 년 4 월의 상위 10 개 AI 마케팅 도구 2025 년 4 월의 상위 10 개 AI 마케팅 도구 인공 지능 (AI)은 왼쪽과 오른쪽 산업을 흔들고 있으며 마케팅도 예외는 아닙니다. 소규모 신생 기업에서 대기업에 이르기까지 비즈니스는 브랜드 가시성을 높이고 성장을 주도하기 위해 AI 마케팅 도구를 점점 더 많이 전환하고 있습니다. 이러한 도구를 비즈니스에 통합합니다
Nhận xét (20)
0/200
EricKing
EricKing 22:12:37 GMT Ngày 19 tháng 4 năm 2025

Deep Cogito's LLMs are impressive, but the app could use a better UI. It's a bit clunky to navigate through the different model sizes. Still, the performance is top-notch, especially with the IDA tech. Definitely worth a look if you're into AI and want to see what's possible with large language models! 🤖💡

EricRoberts
EricRoberts 04:40:17 GMT Ngày 20 tháng 4 năm 2025

ディープコギトのLLMは印象的ですが、アプリのUIがもう少し改善されると良いですね。モデルサイズをナビゲートするのが少しぎこちないです。それでも、パフォーマンスは最高で、特にIDAテクノロジーとの組み合わせが素晴らしいです。AIに興味があるなら、大規模言語モデルの可能性を見る価値がありますよ!🤖💡

RichardThomas
RichardThomas 03:58:42 GMT Ngày 19 tháng 4 năm 2025

Os LLMs da Deep Cogito são impressionantes, mas o app poderia ter uma UI melhor. É um pouco desajeitado navegar pelos diferentes tamanhos de modelo. Ainda assim, o desempenho é de primeira linha, especialmente com a tecnologia IDA. Vale a pena dar uma olhada se você gosta de IA e quer ver o que é possível com modelos de linguagem grandes! 🤖💡

WillMitchell
WillMitchell 20:01:50 GMT Ngày 18 tháng 4 năm 2025

Los LLMs de Deep Cogito son impresionantes, pero la app podría tener una mejor UI. Es un poco torpe navegar entre los diferentes tamaños de modelo. Aún así, el rendimiento es de primera, especialmente con la tecnología IDA. Vale la pena echar un vistazo si te interesa la IA y quieres ver lo que es posible con modelos de lenguaje grandes! 🤖💡

GregoryCarter
GregoryCarter 03:16:16 GMT Ngày 21 tháng 4 năm 2025

LLM от Deep Cogito впечатляют, но приложение могло бы иметь лучший UI. Навигация по разным размерам моделей немного неуклюжая. Тем не менее, производительность на высшем уровне, особенно с технологией IDA. Обязательно стоит посмотреть, если вы интересуетесь ИИ и хотите увидеть, что возможно с большими языковыми моделями! 🤖💡

JackHernández
JackHernández 00:12:00 GMT Ngày 19 tháng 4 năm 2025

Deep Cogito's LLMs are a game-changer! The performance boost over similar-sized models is impressive. I've been using the 70 billion parameter model for my research, and it's like having a super-smart assistant. Only downside? It's a bit resource-heavy. Still, totally worth it! 🚀

Quay lại đầu
OR