옵션
소식
Deepseek의 AIS는 진정한 인간의 욕구를 밝혀냅니다

Deepseek의 AIS는 진정한 인간의 욕구를 밝혀냅니다

2025년 4월 25일
47

AI 보상 모델에서 DeepSeek의 획기적인 획기

중국 AI 스타트 업 Deepseek는 Tsinghua University와 협력하여 AI 연구에서 중요한 이정표를 달성했습니다. AI 보상 모델에 대한 그들의 혁신적인 접근 방식은 AI 시스템이 인간의 선호에서 배우는 방법에 혁명을 일으켜 잠재적으로 더 반응적이고 정렬 된 AI 시스템을 이끌어 낼 것을 약속합니다. "일반 보상 모델링을위한 추론 시간 스케일링"에 자세한 내용은 기존 보상 모델링 기술을 능가하는 방법을 보여줍니다.

AI 보상 모델 이해

AI 보상 모델은 강화 학습 분야, 특히 LLM (Lange Language Model)에서 중요한 역할을합니다. 이러한 모델은 디지털 교육자로 작용하여 AI 시스템을 인간의 욕구와 일치하는 결과로 조정하는 피드백을 제공합니다. DeepSeek 논문은 "보상 모델링은 AI 응용 프로그램이보다 복잡한 영역으로 확장함에 따라 그 중요성을 강조하는"보상 모델링은 인간의 선호도를 향한 LLM을 안내하는 프로세스 "라고 강조합니다.

전통적인 보상 모델은 명확하고 검증 가능한 기준으로 시나리오에서 탁월하지만 일반 영역의 다양하고 미묘한 요구에 직면 할 때 흔들립니다. Deepseek의 혁신은이 문제를 정면으로 해결하여 다양한 상황에서 보상 신호의 정확성을 개선하기 위해이 문제를 해결합니다.

Deepseek의 혁신적인 접근 방식

DeepSeek의 방법은 두 가지 새로운 기술을 통합합니다.

  1. 생성 보상 모델링 (GRM) : 이 접근법은 추론 중 유연성과 확장 성을 더 많이 허용하여 더 간단한 스칼라 또는 반 스칼라 방법에 의존하기보다는 언어를 통한 보상을보다 자세히 표현할 수 있습니다.
  2. SPCT (Self-Principlized Critique Tuning) : 이 학습 방법은 온라인 강화 학습을 통해 확장 가능한 보상 생성을 촉진하여 GRM을 향상시켜 입력 및 응답과 일치하는 원칙을 동적으로 생성합니다.

Tsinghua University와 Deepseek-AI의 연구원 인 Zijun Liu에 따르면,이 이중 접근 방식은 "입력 쿼리 및 응답을 기반으로 원칙을 생성하여 보상 생성 프로세스를 적응 적으로 정렬 할 수있게 해줍니다. 또한이 기술은 "추론 시간 스케일링"을 지원하여 추론 시간에 추가 계산 리소스를 활용하여 성능 향상을 허용합니다.

AI 산업에 미치는 영향

강화 학습은 대형 언어 모델을 향상시키는 데 점점 더욱 필수적이되기 때문에 Deepseek의 발전은 AI 개발에서 중추적 인 순간에 도달합니다. 이 돌파구의 의미는 심오합니다.

  • 향상된 AI 피드백 : 보다 정확한 보상 모델은 시간이 지남에 따라 AI 응답을 개선하여보다 정확한 피드백을 초래합니다.
  • 적응성 향상 : 추론 중 성능을 확장하는 기능을 통해 AI 시스템은 다양한 계산 환경에 적응할 수 있습니다.
  • 더 넓은 응용 프로그램 : 일반 도메인의 개선 된 보상 모델링은 AI 시스템의 잠재적 응용 프로그램을 확장합니다.
  • 효율적인 자원 사용 : DeepSeek의 방법은 추론 시간 스케일링을 향상시키는 동안 교육 중 모델 크기를 증가시키는 것보다 효과적 일 수 있으며, 소규모 모델이 올바른 리소스와 비슷한 성능을 달성 할 수 있습니다.

Deepseek의 영향력 증가

기업가 Liang Wenfeng이 2023 년에 설립 한 이래 Deepseek은 전 세계 AI 환경에서 눈에 띄게 빨리 증가했습니다. 이 회사의 최근 V3 모델 (DeepSeek-V3-0324)으로의 업그레이드는 "향상된 추론 기능, 최적화 된 프론트 엔드 웹 개발 및 중국어 쓰기 능력을 업그레이드했습니다." Open-Source AI를 위해 DeepSeek은 5 개의 코드 리포지토리를 발표하여 커뮤니티의 협업 및 혁신을 촉진했습니다.

R1 추론 모델의 후속 인 DeepSeek-R2의 잠재적 릴리스에 대해 소문이 소용돌이 치는 반면, 회사는 공식 채널에 꽉 끼는 상태로 남아 있습니다.

AI 보상 모델의 미래

DeepSeek는 GRM 모델을 오픈 소스 할 계획이지만 특정 타임 라인은 공개되지 않은 채 남아 있습니다. 이러한 움직임은 더 넓은 실험과 협업을 가능하게하여 보상 모델링의 발전을 가속화 할 것으로 예상됩니다.

강화 학습이 AI의 미래를 계속 형성함에 따라 Deepseek의 Tsinghua University와의 작업은 중요한 발전을 나타냅니다. 피드백의 품질과 확장성에 중점을 두어 인간의 선호도를 더 잘 이해하고 일으키는 AI 시스템을 만드는 데있어 핵심 과제 중 하나를 해결하고 있습니다.

이러한 모델은 크기가 아닌 모델이 학습하는 방법과시기에 중점을 둡니다. AI 개발에서 혁신적인 접근 방식의 중요성을 강조합니다. Deepseek의 노력은 글로벌 기술 분할을 좁히고 AI가 달성 할 수있는 것의 경계를 추진하고 있습니다.

관련 기사
專注於實惠增強現實的真實對焦系統 專注於實惠增強現實的真實對焦系統 顛覆基於投影的增強現實技術來自著名機構電機電子工程師學會(IEEE)的研究人員在基於投影的增強現實領域取得了突破性的進展。他們的解決方案?配備了電控可變焦鏡片(ETL)的特殊眼鏡,這些鏡片模擬人類眼睛自然感知深度的方式。這種創新的方法解決了使投影系統在受控環境中真正實用的主要障礙。想像一下走進一個房間,其中投影的3D物體看起來就像周圍的家具一樣真實。這就是該
DeepSeek-GRM:為企業打造可擴展、高性價比的AI解決方案 DeepSeek-GRM:為企業打造可擴展、高性價比的AI解決方案 如果你經營著一家企業,你就知道將人工智慧(AI)整合到你的營運中有多麼艱難。高昂的成本和技術複雜性往往使先進的AI模型超出小型公司的能力範圍。但這就是DeepSeek-GRM的切入點,旨在使AI更加高效且易於取得,縮小大型科技公司與小型企業之間的差距。DeepSeek-GRM 使用一種稱為生成式獎勵建模(GRM)的聰明技術來引導AI回應更符合人類的需求。這一
新技術使DeepSeek和其他模型能夠響應敏感的查詢 新技術使DeepSeek和其他模型能夠響應敏感的查詢 從中國的DeepSeek等大型語言模型(LLM)中消除偏見和審查是一個複雜的挑戰,引起了美國決策者和商業領袖的關注,他們認為這是潛在的國家安全威脅。美國國會選拔委員會的最新報告標記為深層
의견 (0)
0/200
위로 돌아갑니다
OR