구글, AI 교육 비용을 10,000배 절감하다
인공지능 산업에는 근본적인 역설이 존재합니다. 기계는 전례 없는 규모로 데이터를 처리할 수 있지만, 학습 프로세스 자체는 놀라울 정도로 비효율적이며 종종 수익률 저하라는 문제에 직면합니다. 기존의 머신러닝 방법에는 수년과 수백만 달러가 소요될 수 있는 방대하고 꼼꼼하게 레이블이 지정된 데이터 세트가 필요합니다. 이러한 방법은 일반적으로 더 많은 데이터가 본질적으로 더 우수한 AI 모델로 이어진다는 원칙에 따라 작동합니다. 하지만 최근 Google 연구원들은 이 오랜 가정에 의문을 제기하는 새로운 접근 방식을 공개하여 최대 10,000배 적은 학습 데이터로도 비슷한 수준의 AI 성능을 달성할 수 있음을 보여주었습니다. 이러한 발전은 AI에 대한 접근 방식을 근본적으로 바꿀 수 있는 힘을 가지고 있습니다. 이 글에서는 Google 팀이 이 이정표에 도달한 방법과 향후 잠재적 영향, 그리고 앞으로의 도전과 기회에 대해 자세히 살펴봅니다.
AI의 빅데이터 과제
수십 년 동안 업계의 AI 전략은 "더 많은 데이터가 더 나은 AI를 만든다"는 모토에 따라 추진되어 왔습니다. GPT-4와 같은 대규모 언어 모델은 수조 개의 텍스트 토큰으로 학습됩니다. 이러한 데이터 집약적인 접근 방식은 방대한 리소스나 고유한 데이터 세트가 없는 조직에게는 큰 장애물이 됩니다. 첫째, 사람이 주석을 다는 데 드는 비용이 상당합니다. 전문 라벨러는 높은 수수료를 요구하며, 필요한 데이터의 양이 방대하기 때문에 프로젝트 비용이 엄청나게 많이 듭니다. 둘째, 수집된 데이터의 상당 부분이 반복적인 경우가 많아 학습 과정에 의미 있는 기여를 하지 못합니다. 또한 기존 접근 방식은 요구 사항이 변경될 때 흔들립니다. 정책이 업데이트되거나 새로운 형태의 문제가 되는 콘텐츠가 나타날 때마다 기업은 라벨링 프로세스를 처음부터 다시 시작해야 하며, 데이터 수집과 모델 재교육이라는 지속적이고 비용이 많이 드는 사이클을 시작해야 합니다.
능동적 학습을 통한 빅데이터 과제 해결
이러한 데이터 문제를 해결하기 위한 전략으로 알려진 것은 능동적 학습을 구현하는 것입니다. 이 기술은 인간 리뷰어가 레이블을 지정할 가장 가치 있는 학습 사례를 정확히 찾아내는 세심한 큐레이션 프로세스에 의존합니다. 핵심 개념은 모델이 사용 가능한 모든 데이터 포인트를 수동적으로 수집하는 것이 아니라 가장 어렵다고 판단되는 예제에서 가장 효과적으로 학습한다는 것입니다. 대규모 데이터 세트에 의존하는 기존의 AI 방식과 달리, 능동형 학습은 가장 유익한 샘플만 집중적으로 수집함으로써 보다 전술적인 자세를 취합니다. 이 전략은 모델에 최소한의 가치만 제공하는 뻔하거나 중복된 데이터에 라벨을 붙이는 비효율성을 피하는 데 도움이 됩니다. 대신, 능동 학습은 모델 성능을 향상시킬 수 있는 상당한 잠재력을 지닌 엣지 케이스와 불확실한 사례에 초점을 맞춥니다.
능동적 학습은 전문가의 노력을 이러한 중요한 사례에 집중함으로써 훨씬 적은 수의 데이터 포인트로 모델이 더 빠르고 효과적으로 학습할 수 있게 해줍니다. 이 방법론은 기존 머신 러닝에 내재된 데이터 병목 현상과 비효율성을 모두 해결할 수 있는 잠재력을 가지고 있습니다.
Google의 능동적 학습 접근 방식
Google의 연구팀은 이 프레임워크를 성공적으로 적용했습니다. 이들의 새로운 능동 학습 기법은 세심하게 선별된 고품질의 예시가 방대한 양의 라벨링된 데이터를 효과적으로 대체할 수 있음을 보여줍니다. 예를 들어, 연구팀은 500개 미만의 전문가 라벨링 예제로 학습한 모델이 100,000개의 표준 라벨로 학습한 시스템과 동등하거나 심지어 그 이상의 성능을 보인다는 사실을 밝혀냈습니다.
이 프로세스는 Google에서 'LLM-as-Scout'이라고 부르는 시스템을 통해 작동합니다. 대규모 언어 모델은 먼저 레이블이 지정되지 않은 방대한 양의 데이터를 선별하여 예측이 가장 불확실한 사례에 플래그를 지정합니다. 이러한 경계선 사례는 모델이 의사 결정을 구체화하기 위해 사람의 입력이 필요한 정확한 시나리오를 나타냅니다. 절차는 간단한 프롬프트를 사용하여 대규모 데이터 세트에 레이블을 지정하는 초기 모델로 시작합니다. 그런 다음 시스템은 예측된 분류에 따라 사례를 그룹화하고 모델이 서로 다른 범주 사이에서 혼동되는 영역을 정확히 찾아냅니다. 이렇게 겹쳐진 클러스터는 전문가의 판단이 가장 큰 가치를 제공할 수 있는 정확한 지점을 보여줍니다.
이 방법론은 특히 매우 유사하지만 레이블이 다른 한 쌍의 사례를 대상으로 합니다. 이러한 경계 사례는 인간의 전문성이 가장 중요한 시나리오입니다. 이러한 혼란스러운 사례에 전문가의 라벨링 작업을 집중함으로써 이 시스템은 탁월한 효율성을 달성합니다.
양보다 질
이 연구는 데이터 품질에 대한 중요한 인사이트를 발견하여 AI에 대한 광범위한 믿음에 반박합니다. 높은 정확도와 일관성을 갖춘 전문가 라벨이 대규모 크라우드소싱 주석보다 안정적으로 더 나은 성능을 발휘한다는 것을 보여줍니다. 연구팀은 모델의 예측이 무작위적 우연을 넘어 전문가 합의와 얼마나 일치하는지를 평가하는 통계적 척도인 코헨의 카파를 사용하여 이를 정량화했습니다. Google의 테스트에서 전문가 주석가들은 일반적으로 크라우드 소싱을 통해 달성하는 수준을 훨씬 뛰어넘는 0.8 이상의 코헨 카파 점수를 획득했습니다.
이러한 뛰어난 일관성 덕분에 모델은 훨씬 적은 수의 예제에서도 효과적으로 학습할 수 있습니다. Gemini 나노-1과 나노-2를 사용한 평가에서 모델은 약 10만 개의 무작위 크라우드소싱 라벨을 사용한 것에 비해 250~450개의 엄선된 예제만으로 전문가 수준의 정렬을 달성하거나 그 이상의 결과를 얻었습니다(이는 3~4배 정도 감소한 수치). 그러나 이 기술의 장점은 단순히 데이터를 적게 사용한다는 것 이상으로 확장됩니다. 이 기법으로 훈련된 모델은 기존 방법으로 훈련된 모델의 성능을 능가하는 경우가 많습니다. 복잡한 작업과 더 큰 모델의 경우, 기준치보다 55~65% 높은 성능 향상을 달성하여 정책 전문가와 더욱 강력하고 신뢰할 수 있게 일치하는 것으로 나타났습니다.
이 혁신이 지금 중요한 이유
이번 개발은 AI 산업에 있어 중요한 순간에 이루어졌습니다. 모델이 점점 더 커지고 복잡해짐에 따라 단순히 학습 데이터를 늘리는 기존의 전략은 점점 더 지속 가능하지 않게 되었습니다. 대규모 모델 학습이 환경에 미치는 영향은 계속 커지고 있으며, 많은 조직에서 경제적 진입 장벽은 여전히 높습니다.
Google의 방식은 여러 가지 업계 과제를 한 번에 해결합니다. 라벨링 비용을 획기적으로 줄임으로써 소규모 조직과 연구 그룹에서도 AI 개발을 더 쉽게 실현할 수 있습니다. 반복 주기가 빨라지면 진화하는 요구사항에 빠르게 적응할 수 있으며, 이는 콘텐츠 조정 및 사이버 보안과 같이 빠르게 변화하는 영역에서 매우 중요합니다.
또한 이 접근 방식은 AI의 안전성과 신뢰성에도 광범위한 영향을 미칩니다. 이 기술은 모델이 가장 불확실한 사례에 집중함으로써 잠재적인 실패 지점과 에지 케이스를 자연스럽게 발견합니다. 이 과정을 통해 자체 한계를 더 잘 파악할 수 있는 더욱 강력한 시스템을 구축할 수 있습니다.
AI 개발에 대한 광범위한 시사점
이러한 획기적인 발전은 우리가 규모보다 효율성이 우선시되는 새로운 AI 개발 시대로 접어들고 있음을 시사합니다. 학습 데이터에 대한 기존의 "클수록 좋다"는 철학은 데이터 품질과 전략적 선택을 강조하는 보다 정교한 방법으로 대체될 수 있습니다.
환경적 영향만 해도 상당합니다. 현재 대규모 AI 모델을 훈련하려면 막대한 컴퓨팅 리소스와 에너지가 필요합니다. 훨씬 적은 데이터로 비슷한 결과를 얻을 수 있다면 AI 개발의 탄소 발자국을 크게 줄일 수 있습니다.
민주화 효과도 그에 못지않게 클 수 있습니다. 이전에는 대규모 데이터 수집 이니셔티브에 자금을 지원할 수 없었던 소규모 연구팀과 조직도 이제 경쟁력 있는 AI 시스템을 개발할 수 있는 길을 열었습니다. 이러한 발전은 혁신을 촉진하고 AI 분야에 보다 다양한 관점을 도입할 수 있습니다.
한계와 고려 사항
이 방법론은 유망한 결과에도 불구하고 몇 가지 현실적인 장애물에 직면해 있습니다. 0.8 이상의 코헨 카파 점수를 얻을 수 있는 전문 주석가가 필요하기 때문에 전문성이 제한적이거나 기준이 불명확한 분야에서는 사용이 제한될 수 있습니다. 이 연구는 주로 분류 작업과 콘텐츠 안전 애플리케이션에 중점을 두고 있습니다. 언어 생성이나 복잡한 추론과 같은 다른 AI 작업에서도 이와 유사한 극적인 개선이 실현될 수 있을지는 아직 지켜봐야 합니다.
또한 능동적 학습의 반복적 특성은 기존의 일괄 처리 방식에 비해 복잡성을 더합니다. 조직은 지속적인 모델 개선을 촉진하는 지속적인 쿼리 및 응답 주기를 지원하기 위해 새로운 워크플로우와 인프라를 구축해야 합니다.
향후 연구에서는 전문가 수준의 주석 품질을 유지하고 핵심 기술의 도메인별 버전을 만들기 위한 자동화된 방법을 조사할 것입니다. 능동적 학습 원리를 매개변수 효율적 미세 조정과 같은 다른 효율성 방법과 통합하면 더 많은 성능 이점을 얻을 수 있습니다.
결론
Google의 연구는 타겟팅된 고품질 데이터가 대규모 데이터 세트보다 성능이 뛰어나다는 것을 보여줍니다. 가장 가치 있는 예시에만 라벨링 작업을 집중함으로써 학습 데이터 요구 사항을 최대 10,000배까지 줄이면서 동시에 성능을 향상시켰습니다. 이 전략은 비용을 절감하고, 개발을 가속화하며, 환경에 미치는 영향을 줄이고, 고급 AI에 대한 접근성을 넓혔습니다. 이는 보다 효율적이고 지속 가능한 AI 개발을 향한 중요한 발걸음입니다.
관련 기사
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
관련 특별 주제 추천
의견 (2)
0/500
Also die Kosten um das 10.000-fache zu senken? Das klingt fast zu gut, um wahr zu sein. Google hat da wohl einen echten Durchbruch geschafft. Wenn das stimmt, könnte das die ganze KI-Entwicklung demokratisieren. Kleine Startups hätten dann plötzlich eine Chance. Aber ich frage mich, ob das nur für bestimmte Modelle oder Trainingsmethoden funktioniert. Die Details wären spannend! 🤔
인공지능 산업에는 근본적인 역설이 존재합니다. 기계는 전례 없는 규모로 데이터를 처리할 수 있지만, 학습 프로세스 자체는 놀라울 정도로 비효율적이며 종종 수익률 저하라는 문제에 직면합니다. 기존의 머신러닝 방법에는 수년과 수백만 달러가 소요될 수 있는 방대하고 꼼꼼하게 레이블이 지정된 데이터 세트가 필요합니다. 이러한 방법은 일반적으로 더 많은 데이터가 본질적으로 더 우수한 AI 모델로 이어진다는 원칙에 따라 작동합니다. 하지만 최근 Google 연구원들은 이 오랜 가정에 의문을 제기하는 새로운 접근 방식을 공개하여 최대 10,000배 적은 학습 데이터로도 비슷한 수준의 AI 성능을 달성할 수 있음을 보여주었습니다. 이러한 발전은 AI에 대한 접근 방식을 근본적으로 바꿀 수 있는 힘을 가지고 있습니다. 이 글에서는 Google 팀이 이 이정표에 도달한 방법과 향후 잠재적 영향, 그리고 앞으로의 도전과 기회에 대해 자세히 살펴봅니다.
AI의 빅데이터 과제
수십 년 동안 업계의 AI 전략은 "더 많은 데이터가 더 나은 AI를 만든다"는 모토에 따라 추진되어 왔습니다. GPT-4와 같은 대규모 언어 모델은 수조 개의 텍스트 토큰으로 학습됩니다. 이러한 데이터 집약적인 접근 방식은 방대한 리소스나 고유한 데이터 세트가 없는 조직에게는 큰 장애물이 됩니다. 첫째, 사람이 주석을 다는 데 드는 비용이 상당합니다. 전문 라벨러는 높은 수수료를 요구하며, 필요한 데이터의 양이 방대하기 때문에 프로젝트 비용이 엄청나게 많이 듭니다. 둘째, 수집된 데이터의 상당 부분이 반복적인 경우가 많아 학습 과정에 의미 있는 기여를 하지 못합니다. 또한 기존 접근 방식은 요구 사항이 변경될 때 흔들립니다. 정책이 업데이트되거나 새로운 형태의 문제가 되는 콘텐츠가 나타날 때마다 기업은 라벨링 프로세스를 처음부터 다시 시작해야 하며, 데이터 수집과 모델 재교육이라는 지속적이고 비용이 많이 드는 사이클을 시작해야 합니다.
능동적 학습을 통한 빅데이터 과제 해결
이러한 데이터 문제를 해결하기 위한 전략으로 알려진 것은 능동적 학습을 구현하는 것입니다. 이 기술은 인간 리뷰어가 레이블을 지정할 가장 가치 있는 학습 사례를 정확히 찾아내는 세심한 큐레이션 프로세스에 의존합니다. 핵심 개념은 모델이 사용 가능한 모든 데이터 포인트를 수동적으로 수집하는 것이 아니라 가장 어렵다고 판단되는 예제에서 가장 효과적으로 학습한다는 것입니다. 대규모 데이터 세트에 의존하는 기존의 AI 방식과 달리, 능동형 학습은 가장 유익한 샘플만 집중적으로 수집함으로써 보다 전술적인 자세를 취합니다. 이 전략은 모델에 최소한의 가치만 제공하는 뻔하거나 중복된 데이터에 라벨을 붙이는 비효율성을 피하는 데 도움이 됩니다. 대신, 능동 학습은 모델 성능을 향상시킬 수 있는 상당한 잠재력을 지닌 엣지 케이스와 불확실한 사례에 초점을 맞춥니다.
능동적 학습은 전문가의 노력을 이러한 중요한 사례에 집중함으로써 훨씬 적은 수의 데이터 포인트로 모델이 더 빠르고 효과적으로 학습할 수 있게 해줍니다. 이 방법론은 기존 머신 러닝에 내재된 데이터 병목 현상과 비효율성을 모두 해결할 수 있는 잠재력을 가지고 있습니다.
Google의 능동적 학습 접근 방식
Google의 연구팀은 이 프레임워크를 성공적으로 적용했습니다. 이들의 새로운 능동 학습 기법은 세심하게 선별된 고품질의 예시가 방대한 양의 라벨링된 데이터를 효과적으로 대체할 수 있음을 보여줍니다. 예를 들어, 연구팀은 500개 미만의 전문가 라벨링 예제로 학습한 모델이 100,000개의 표준 라벨로 학습한 시스템과 동등하거나 심지어 그 이상의 성능을 보인다는 사실을 밝혀냈습니다.
이 프로세스는 Google에서 'LLM-as-Scout'이라고 부르는 시스템을 통해 작동합니다. 대규모 언어 모델은 먼저 레이블이 지정되지 않은 방대한 양의 데이터를 선별하여 예측이 가장 불확실한 사례에 플래그를 지정합니다. 이러한 경계선 사례는 모델이 의사 결정을 구체화하기 위해 사람의 입력이 필요한 정확한 시나리오를 나타냅니다. 절차는 간단한 프롬프트를 사용하여 대규모 데이터 세트에 레이블을 지정하는 초기 모델로 시작합니다. 그런 다음 시스템은 예측된 분류에 따라 사례를 그룹화하고 모델이 서로 다른 범주 사이에서 혼동되는 영역을 정확히 찾아냅니다. 이렇게 겹쳐진 클러스터는 전문가의 판단이 가장 큰 가치를 제공할 수 있는 정확한 지점을 보여줍니다.
이 방법론은 특히 매우 유사하지만 레이블이 다른 한 쌍의 사례를 대상으로 합니다. 이러한 경계 사례는 인간의 전문성이 가장 중요한 시나리오입니다. 이러한 혼란스러운 사례에 전문가의 라벨링 작업을 집중함으로써 이 시스템은 탁월한 효율성을 달성합니다.
양보다 질
이 연구는 데이터 품질에 대한 중요한 인사이트를 발견하여 AI에 대한 광범위한 믿음에 반박합니다. 높은 정확도와 일관성을 갖춘 전문가 라벨이 대규모 크라우드소싱 주석보다 안정적으로 더 나은 성능을 발휘한다는 것을 보여줍니다. 연구팀은 모델의 예측이 무작위적 우연을 넘어 전문가 합의와 얼마나 일치하는지를 평가하는 통계적 척도인 코헨의 카파를 사용하여 이를 정량화했습니다. Google의 테스트에서 전문가 주석가들은 일반적으로 크라우드 소싱을 통해 달성하는 수준을 훨씬 뛰어넘는 0.8 이상의 코헨 카파 점수를 획득했습니다.
이러한 뛰어난 일관성 덕분에 모델은 훨씬 적은 수의 예제에서도 효과적으로 학습할 수 있습니다. Gemini 나노-1과 나노-2를 사용한 평가에서 모델은 약 10만 개의 무작위 크라우드소싱 라벨을 사용한 것에 비해 250~450개의 엄선된 예제만으로 전문가 수준의 정렬을 달성하거나 그 이상의 결과를 얻었습니다(이는 3~4배 정도 감소한 수치). 그러나 이 기술의 장점은 단순히 데이터를 적게 사용한다는 것 이상으로 확장됩니다. 이 기법으로 훈련된 모델은 기존 방법으로 훈련된 모델의 성능을 능가하는 경우가 많습니다. 복잡한 작업과 더 큰 모델의 경우, 기준치보다 55~65% 높은 성능 향상을 달성하여 정책 전문가와 더욱 강력하고 신뢰할 수 있게 일치하는 것으로 나타났습니다.
이 혁신이 지금 중요한 이유
이번 개발은 AI 산업에 있어 중요한 순간에 이루어졌습니다. 모델이 점점 더 커지고 복잡해짐에 따라 단순히 학습 데이터를 늘리는 기존의 전략은 점점 더 지속 가능하지 않게 되었습니다. 대규모 모델 학습이 환경에 미치는 영향은 계속 커지고 있으며, 많은 조직에서 경제적 진입 장벽은 여전히 높습니다.
Google의 방식은 여러 가지 업계 과제를 한 번에 해결합니다. 라벨링 비용을 획기적으로 줄임으로써 소규모 조직과 연구 그룹에서도 AI 개발을 더 쉽게 실현할 수 있습니다. 반복 주기가 빨라지면 진화하는 요구사항에 빠르게 적응할 수 있으며, 이는 콘텐츠 조정 및 사이버 보안과 같이 빠르게 변화하는 영역에서 매우 중요합니다.
또한 이 접근 방식은 AI의 안전성과 신뢰성에도 광범위한 영향을 미칩니다. 이 기술은 모델이 가장 불확실한 사례에 집중함으로써 잠재적인 실패 지점과 에지 케이스를 자연스럽게 발견합니다. 이 과정을 통해 자체 한계를 더 잘 파악할 수 있는 더욱 강력한 시스템을 구축할 수 있습니다.
AI 개발에 대한 광범위한 시사점
이러한 획기적인 발전은 우리가 규모보다 효율성이 우선시되는 새로운 AI 개발 시대로 접어들고 있음을 시사합니다. 학습 데이터에 대한 기존의 "클수록 좋다"는 철학은 데이터 품질과 전략적 선택을 강조하는 보다 정교한 방법으로 대체될 수 있습니다.
환경적 영향만 해도 상당합니다. 현재 대규모 AI 모델을 훈련하려면 막대한 컴퓨팅 리소스와 에너지가 필요합니다. 훨씬 적은 데이터로 비슷한 결과를 얻을 수 있다면 AI 개발의 탄소 발자국을 크게 줄일 수 있습니다.
민주화 효과도 그에 못지않게 클 수 있습니다. 이전에는 대규모 데이터 수집 이니셔티브에 자금을 지원할 수 없었던 소규모 연구팀과 조직도 이제 경쟁력 있는 AI 시스템을 개발할 수 있는 길을 열었습니다. 이러한 발전은 혁신을 촉진하고 AI 분야에 보다 다양한 관점을 도입할 수 있습니다.
한계와 고려 사항
이 방법론은 유망한 결과에도 불구하고 몇 가지 현실적인 장애물에 직면해 있습니다. 0.8 이상의 코헨 카파 점수를 얻을 수 있는 전문 주석가가 필요하기 때문에 전문성이 제한적이거나 기준이 불명확한 분야에서는 사용이 제한될 수 있습니다. 이 연구는 주로 분류 작업과 콘텐츠 안전 애플리케이션에 중점을 두고 있습니다. 언어 생성이나 복잡한 추론과 같은 다른 AI 작업에서도 이와 유사한 극적인 개선이 실현될 수 있을지는 아직 지켜봐야 합니다.
또한 능동적 학습의 반복적 특성은 기존의 일괄 처리 방식에 비해 복잡성을 더합니다. 조직은 지속적인 모델 개선을 촉진하는 지속적인 쿼리 및 응답 주기를 지원하기 위해 새로운 워크플로우와 인프라를 구축해야 합니다.
향후 연구에서는 전문가 수준의 주석 품질을 유지하고 핵심 기술의 도메인별 버전을 만들기 위한 자동화된 방법을 조사할 것입니다. 능동적 학습 원리를 매개변수 효율적 미세 조정과 같은 다른 효율성 방법과 통합하면 더 많은 성능 이점을 얻을 수 있습니다.
결론
Google의 연구는 타겟팅된 고품질 데이터가 대규모 데이터 세트보다 성능이 뛰어나다는 것을 보여줍니다. 가장 가치 있는 예시에만 라벨링 작업을 집중함으로써 학습 데이터 요구 사항을 최대 10,000배까지 줄이면서 동시에 성능을 향상시켰습니다. 이 전략은 비용을 절감하고, 개발을 가속화하며, 환경에 미치는 영향을 줄이고, 고급 AI에 대한 접근성을 넓혔습니다. 이는 보다 효율적이고 지속 가능한 AI 개발을 향한 중요한 발걸음입니다.
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
Also die Kosten um das 10.000-fache zu senken? Das klingt fast zu gut, um wahr zu sein. Google hat da wohl einen echten Durchbruch geschafft. Wenn das stimmt, könnte das die ganze KI-Entwicklung demokratisieren. Kleine Startups hätten dann plötzlich eine Chance. Aber ich frage mich, ob das nur für bestimmte Modelle oder Trainingsmethoden funktioniert. Die Details wären spannend! 🤔





집






