포옹하는 얼굴: 기업이 성능을 유지하면서 AI 비용을 절감하는 방법

많은 기업이 AI 개발에 막대한 연산 능력이 필요하다는 가정 하에 단순히 더 많은 리소스를 확보하는 데 우선순위를 두는 경우가 많습니다.
하지만 허깅 페이스의 AI 및 기후 책임자인 사샤 루치오니는 다른 길을 제안합니다. AI를 더 지능적으로 사용하는 데 초점을 맞추면 어떨까요? 기업은 끊임없이 추가(종종 과도한) 컴퓨팅 용량을 추구하는 대신 모델 성능과 정밀도를 향상시킬 수 있습니다.
루치오니는 핵심 문제는 접근 방식에 있다고 주장합니다. 기업은 더 많은 컴퓨팅이 아니라 더 스마트한 컴퓨팅을 목표로 삼아야 한다는 것이죠.
"우리는 더 많은 플롭스, 더 많은 GPU, 더 많은 시간이 필요하다는 것에 집착하기 때문에 더 지능적인 방법을 간과하고 있습니다."라고 그녀는 설명합니다.
다음은 모든 규모의 기업이 AI를 보다 효율적으로 배포하는 데 도움이 되는 Hugging Face의 5가지 핵심 전략입니다.
1: 작업에 적합한 모델 선택
모든 애플리케이션에 대규모 범용 모델을 기본값으로 사용하려는 충동을 억제하세요. 전문화되거나 정제된 모델은 특정 작업에 대해 훨씬 낮은 비용과 적은 에너지 소비로 동등하거나 더 우수한 정확도를 달성할 수 있는 경우가 많습니다.
루치오니의 연구에 따르면 작업별 모델은 범용 모델보다 20~30배 적은 에너지를 소비할 수 있다고 합니다. "이러한 모델은 모든 쿼리를 처리하도록 설계된 대규모 언어 모델과 달리 단일 목적을 위해 구축됩니다."라고 그녀는 설명합니다.
여기서 중요한 것은 모델 증류입니다. 전체 규모의 모델을 처음에 학습시킨 다음 특정 기능에 맞게 세분화할 수 있습니다. 예를 들어, 루치오니는 딥시크 R1은 너무 커서 대부분의 조직에서 실행할 여력이 없으며, 최소 8개의 GPU가 필요한 경우가 많다고 지적했습니다. 이에 비해 증류 버전은 10~30배 더 작고 단일 GPU에서 작동할 수 있습니다.
또한, 처음부터 교육할 필요가 없는 오픈 소스 모델의 효율성 이점도 강조했습니다. 적합한 모델을 찾기 위해 리소스를 낭비하던 몇 년 전과 달리 이제는 기본 모델부터 시작하여 필요에 맞게 미세 조정할 수 있습니다.
루치오니는 "이는 모든 사람이 각자의 모델을 훈련시켜 컴퓨팅 리소스를 효과적으로 낭비하는 고립된 노력 대신 협력적이고 점진적인 혁신을 촉진합니다."라고 말합니다.
생성형 AI의 비용이 그 이점을 능가하는 경우가 많다는 인식이 확산되면서 기업의 환멸로 이어지고 있습니다. 이메일 작성이나 회의 녹취와 같은 일반적인 용도는 진정으로 도움이 되지만, 업무별 모델에는 여전히 상당한 노력이 필요합니다. 루치오니에 따르면 기성품 모델은 종종 불충분하고 더 비싼 경우가 많습니다.
이러한 격차를 해소하는 것은 부가가치를 창출할 수 있는 새로운 영역입니다. "대부분의 기업은 특정 작업을 수행하기를 원합니다."라고 루치오니는 말합니다. "그들은 인공 일반 지능(AGI)을 원하는 것이 아니라 전문화된 지능을 원합니다. 이것이 바로 우리가 해결해야 할 과제입니다."
2. 효율성을 기본으로 만들기
'넛지 이론'의 원리를 시스템 설계에 통합하고, 보수적인 계산 예산을 설정하고, 상시 작동하는 생성 기능을 제한하고, 사용자가 고비용 계산 모드를 선택하도록 요구하세요.
행동 과학에서 '넛지 이론'은 긍정적인 행동을 장려하기 위해 미묘하게 선택을 유도하는 것을 말합니다. 루치오니는 테이크아웃 음식에 수저를 제공하는 전형적인 예를 들며, 수저를 기본적으로 포함하지 않고 선택 사항으로 제공하면 쓰레기를 크게 줄일 수 있다고 설명합니다.
"옵트아웃 모델에서 옵트인 모델로 전환하는 것만으로도 사용자 행동에 강력한 영향을 미칠 수 있습니다."라고 루치오니는 설명합니다.
기본 설정은 모델이 필요하지 않은 작업을 수행하기 때문에 불필요한 사용과 비용 증가로 이어지는 경우가 많습니다. 예를 들어, 일부 검색 엔진은 이제 결과 상단에 AI 요약을 자동으로 생성합니다. 또한 루치오니는 최근 OpenAI의 GPT-5를 사용할 때 모델이 매우 간단한 쿼리에 대해서도 전체 추론 모드로 기본 설정되는 것을 관찰했습니다.
"저에게는 예외가 되어야 합니다."라고 그녀는 말합니다. "제가 '인생의 의미는 무엇인가요?"라고 묻는다면 물론 AI 요약이 유용할 수 있습니다. 하지만 '몬트리올의 날씨는 어때요?' 또는 '우리 동네 약국 영업시간은 어떻게 되나요?'와 같은 질문은 그렇지 않습니다. 생성 요약은 필요하지 않습니다. 기본값은 추론이 없어야 합니다."
3. 하드웨어 활용도 최적화
일괄 처리를 구현하고, 수치 정밀도를 조정하고, 특정 하드웨어 생성에 맞게 배치 크기를 미세 조정하여 메모리와 전력 소비 낭비를 최소화하세요.
기업은 구체적인 요구 사항을 평가해야 합니다: 모델이 지속적으로 실행되어야 하는가? 한 번에 100개의 실시간 요청을 처리해야 하는가? 이러한 경우 상시 가동 최적화가 필수적이라고 루치오니는 지적합니다. 그러나 다른 많은 시나리오에서는 그렇지 않은 경우가 많으며, 모델을 주기적으로 실행하여 메모리를 절약하고 일괄 처리를 통해 메모리 사용을 최적화할 수 있습니다.
루치오니는 "이는 엔지니어링 과제이지만 매우 구체적인 문제이기 때문에 '모든 모델을 증류하라'거나 '모든 모델의 정밀도를 변경하라'는 식의 포괄적인 조언을 하기는 어렵습니다."라고 말합니다.
최근 연구에서 그녀는 이상적인 배치 크기가 특정 모델이나 버전에 따라 하드웨어에 따라 크게 달라진다는 사실을 발견했습니다. 배치 크기를 한 단위만 늘리면 모델에 더 많은 메모리 리소스가 필요하기 때문에 에너지 사용량이 증가할 수 있습니다.
"이는 사람들이 종종 간과하는 부분입니다. '배치 크기만 최대화하면 되겠지'라고 생각하지만 진정한 효율성은 이러한 모든 변수를 세심하게 조정하는 데서 비롯됩니다. 그 결과 고도로 최적화된 시스템이 탄생하지만 매우 구체적인 상황에 맞게 조정된 시스템입니다."라고 루치오니는 설명합니다.
4. 에너지 투명성 장려
인센티브는 변화를 촉진합니다. 이를 염두에 두고 허깅 페이스는 올해 초 AI 에너지 점수를 시작했습니다. 이 이니셔티브는 1~5개의 등급 시스템을 사용하여 에너지 효율성을 장려하며, 가장 효율적인 모델에 '별 5개'를 부여합니다.
이는 효율 표준을 설정하고 적격 가전 제품에 로고를 부착하는 오랜 연방 프로그램에서 영감을 얻은 'AI용 에너지 스타'라고 생각할 수 있습니다.
"수십 년 동안 이 별 등급은 강력한 동기 부여가 되었습니다. 사람들은 이를 원했습니다."라고 루치오니는 말합니다. "에너지 점수를 통해 비슷한 효과를 거둘 수 있다면 환상적일 것입니다."
허깅 페이스는 공개 리더보드를 구축했으며, 9월에 딥시크와 GPT-oss 같은 새로운 모델로 업데이트하고 6개월마다 또는 새로운 모델이 등장할 때마다 계속 갱신할 계획입니다. 루치오니는 모델 개발자들이 높은 등급을 '명예의 훈장'으로 여길 수 있도록 하는 것이 목표라고 말했습니다.
5. "더 많은 컴퓨팅이 더 좋다"는 사고방식의 재고
가장 큰 GPU 클러스터를 추구하는 대신 다음과 같은 질문부터 해보세요: "원하는 결과를 얻기 위한 가장 지능적인 방법은 무엇일까요?"라고 질문하세요. 수많은 애플리케이션에서 더 스마트한 아키텍처와 더 잘 선별된 데이터 세트가 무차별적인 확장보다 더 나은 결과를 가져옵니다.
루치오니는 "대부분의 사람들이 생각하는 것만큼 많은 GPU가 필요하지 않을 것이라고 생각합니다."라고 말했습니다. 그녀는 기업이 GPU가 처리할 실제 작업, 왜 필요한지, 이전에 이러한 작업이 어떻게 수행되었는지, 추가 GPU가 실제로 어떤 실질적인 이점을 제공할 수 있는지 재고해 볼 것을 권장했습니다.
"지금은 모두가 더 큰 클러스터가 필요하다고 느끼는 바닥을 향한 경쟁이 되었습니다."라고 그녀는 말했습니다. "핵심은 AI를 사용하는 목적, 필요한 특정 기술, 그리고 이러한 기술이 실제로 무엇을 요구하는지 분석하는 것입니다."
관련 기사
아마존은 2025 년에 AI에 $ 100B를 소지합니다
최근의 버즈에도 불구하고 DeepSeek이 AI 예산 감소 시대를 안내 할 것이라고 제안했지만 Big Tech가 브레이크에 부딪 히고 있다는 표시는 없습니다. 반대로, 그들은 가스를 밟고 있습니다. 아마존
Nvidia는 차세대 GPU를 공개합니다 : Blackwell Ultra, Vera Rubin, Feynman
화요일 산호세에서 열린 NVIDIA의 GTC 2025 컨퍼런스에서 Jensen Huang CEO는 다가오는 GPU의 라인업을 발표했습니다. 쇼의 스타? Vera Rubin GPU는 2026 년 2 분의 2로 예정되어 있습니다. 이 짐승은 수십 기가 바이트의 기억을 자랑하며 관리자와 함께 제공됩니다.
재작성할 기사 제목을 알려주시겠어요?
예전에는 전문적인 프로필 사진을 찍으려면 사진작가를 고용하고, 스튜디오를 대여하며, 하루 중 적어도 한 시간을 할애해야 했습니다. 오늘날에는 AI 기반 플랫폼이 늘어나면서, 이러한 번거로운 과정을 모두 생략하고도 완성도 높고 바로 공개할 수 있는 사진을 얻을 수 있다고 약속합니다. 일부는 그 약속을 지키지만, 대부분은 그렇지 못합니다.가치 있는 AI 헤드샷
관련 특별 주제 추천
의견 (0)
0/500

많은 기업이 AI 개발에 막대한 연산 능력이 필요하다는 가정 하에 단순히 더 많은 리소스를 확보하는 데 우선순위를 두는 경우가 많습니다.
하지만 허깅 페이스의 AI 및 기후 책임자인 사샤 루치오니는 다른 길을 제안합니다. AI를 더 지능적으로 사용하는 데 초점을 맞추면 어떨까요? 기업은 끊임없이 추가(종종 과도한) 컴퓨팅 용량을 추구하는 대신 모델 성능과 정밀도를 향상시킬 수 있습니다.
루치오니는 핵심 문제는 접근 방식에 있다고 주장합니다. 기업은 더 많은 컴퓨팅이 아니라 더 스마트한 컴퓨팅을 목표로 삼아야 한다는 것이죠.
"우리는 더 많은 플롭스, 더 많은 GPU, 더 많은 시간이 필요하다는 것에 집착하기 때문에 더 지능적인 방법을 간과하고 있습니다."라고 그녀는 설명합니다.
다음은 모든 규모의 기업이 AI를 보다 효율적으로 배포하는 데 도움이 되는 Hugging Face의 5가지 핵심 전략입니다.
1: 작업에 적합한 모델 선택
모든 애플리케이션에 대규모 범용 모델을 기본값으로 사용하려는 충동을 억제하세요. 전문화되거나 정제된 모델은 특정 작업에 대해 훨씬 낮은 비용과 적은 에너지 소비로 동등하거나 더 우수한 정확도를 달성할 수 있는 경우가 많습니다.
루치오니의 연구에 따르면 작업별 모델은 범용 모델보다 20~30배 적은 에너지를 소비할 수 있다고 합니다. "이러한 모델은 모든 쿼리를 처리하도록 설계된 대규모 언어 모델과 달리 단일 목적을 위해 구축됩니다."라고 그녀는 설명합니다.
여기서 중요한 것은 모델 증류입니다. 전체 규모의 모델을 처음에 학습시킨 다음 특정 기능에 맞게 세분화할 수 있습니다. 예를 들어, 루치오니는 딥시크 R1은 너무 커서 대부분의 조직에서 실행할 여력이 없으며, 최소 8개의 GPU가 필요한 경우가 많다고 지적했습니다. 이에 비해 증류 버전은 10~30배 더 작고 단일 GPU에서 작동할 수 있습니다.
또한, 처음부터 교육할 필요가 없는 오픈 소스 모델의 효율성 이점도 강조했습니다. 적합한 모델을 찾기 위해 리소스를 낭비하던 몇 년 전과 달리 이제는 기본 모델부터 시작하여 필요에 맞게 미세 조정할 수 있습니다.
루치오니는 "이는 모든 사람이 각자의 모델을 훈련시켜 컴퓨팅 리소스를 효과적으로 낭비하는 고립된 노력 대신 협력적이고 점진적인 혁신을 촉진합니다."라고 말합니다.
생성형 AI의 비용이 그 이점을 능가하는 경우가 많다는 인식이 확산되면서 기업의 환멸로 이어지고 있습니다. 이메일 작성이나 회의 녹취와 같은 일반적인 용도는 진정으로 도움이 되지만, 업무별 모델에는 여전히 상당한 노력이 필요합니다. 루치오니에 따르면 기성품 모델은 종종 불충분하고 더 비싼 경우가 많습니다.
이러한 격차를 해소하는 것은 부가가치를 창출할 수 있는 새로운 영역입니다. "대부분의 기업은 특정 작업을 수행하기를 원합니다."라고 루치오니는 말합니다. "그들은 인공 일반 지능(AGI)을 원하는 것이 아니라 전문화된 지능을 원합니다. 이것이 바로 우리가 해결해야 할 과제입니다."
2. 효율성을 기본으로 만들기
'넛지 이론'의 원리를 시스템 설계에 통합하고, 보수적인 계산 예산을 설정하고, 상시 작동하는 생성 기능을 제한하고, 사용자가 고비용 계산 모드를 선택하도록 요구하세요.
행동 과학에서 '넛지 이론'은 긍정적인 행동을 장려하기 위해 미묘하게 선택을 유도하는 것을 말합니다. 루치오니는 테이크아웃 음식에 수저를 제공하는 전형적인 예를 들며, 수저를 기본적으로 포함하지 않고 선택 사항으로 제공하면 쓰레기를 크게 줄일 수 있다고 설명합니다.
"옵트아웃 모델에서 옵트인 모델로 전환하는 것만으로도 사용자 행동에 강력한 영향을 미칠 수 있습니다."라고 루치오니는 설명합니다.
기본 설정은 모델이 필요하지 않은 작업을 수행하기 때문에 불필요한 사용과 비용 증가로 이어지는 경우가 많습니다. 예를 들어, 일부 검색 엔진은 이제 결과 상단에 AI 요약을 자동으로 생성합니다. 또한 루치오니는 최근 OpenAI의 GPT-5를 사용할 때 모델이 매우 간단한 쿼리에 대해서도 전체 추론 모드로 기본 설정되는 것을 관찰했습니다.
"저에게는 예외가 되어야 합니다."라고 그녀는 말합니다. "제가 '인생의 의미는 무엇인가요?"라고 묻는다면 물론 AI 요약이 유용할 수 있습니다. 하지만 '몬트리올의 날씨는 어때요?' 또는 '우리 동네 약국 영업시간은 어떻게 되나요?'와 같은 질문은 그렇지 않습니다. 생성 요약은 필요하지 않습니다. 기본값은 추론이 없어야 합니다."
3. 하드웨어 활용도 최적화
일괄 처리를 구현하고, 수치 정밀도를 조정하고, 특정 하드웨어 생성에 맞게 배치 크기를 미세 조정하여 메모리와 전력 소비 낭비를 최소화하세요.
기업은 구체적인 요구 사항을 평가해야 합니다: 모델이 지속적으로 실행되어야 하는가? 한 번에 100개의 실시간 요청을 처리해야 하는가? 이러한 경우 상시 가동 최적화가 필수적이라고 루치오니는 지적합니다. 그러나 다른 많은 시나리오에서는 그렇지 않은 경우가 많으며, 모델을 주기적으로 실행하여 메모리를 절약하고 일괄 처리를 통해 메모리 사용을 최적화할 수 있습니다.
루치오니는 "이는 엔지니어링 과제이지만 매우 구체적인 문제이기 때문에 '모든 모델을 증류하라'거나 '모든 모델의 정밀도를 변경하라'는 식의 포괄적인 조언을 하기는 어렵습니다."라고 말합니다.
최근 연구에서 그녀는 이상적인 배치 크기가 특정 모델이나 버전에 따라 하드웨어에 따라 크게 달라진다는 사실을 발견했습니다. 배치 크기를 한 단위만 늘리면 모델에 더 많은 메모리 리소스가 필요하기 때문에 에너지 사용량이 증가할 수 있습니다.
"이는 사람들이 종종 간과하는 부분입니다. '배치 크기만 최대화하면 되겠지'라고 생각하지만 진정한 효율성은 이러한 모든 변수를 세심하게 조정하는 데서 비롯됩니다. 그 결과 고도로 최적화된 시스템이 탄생하지만 매우 구체적인 상황에 맞게 조정된 시스템입니다."라고 루치오니는 설명합니다.
4. 에너지 투명성 장려
인센티브는 변화를 촉진합니다. 이를 염두에 두고 허깅 페이스는 올해 초 AI 에너지 점수를 시작했습니다. 이 이니셔티브는 1~5개의 등급 시스템을 사용하여 에너지 효율성을 장려하며, 가장 효율적인 모델에 '별 5개'를 부여합니다.
이는 효율 표준을 설정하고 적격 가전 제품에 로고를 부착하는 오랜 연방 프로그램에서 영감을 얻은 'AI용 에너지 스타'라고 생각할 수 있습니다.
"수십 년 동안 이 별 등급은 강력한 동기 부여가 되었습니다. 사람들은 이를 원했습니다."라고 루치오니는 말합니다. "에너지 점수를 통해 비슷한 효과를 거둘 수 있다면 환상적일 것입니다."
허깅 페이스는 공개 리더보드를 구축했으며, 9월에 딥시크와 GPT-oss 같은 새로운 모델로 업데이트하고 6개월마다 또는 새로운 모델이 등장할 때마다 계속 갱신할 계획입니다. 루치오니는 모델 개발자들이 높은 등급을 '명예의 훈장'으로 여길 수 있도록 하는 것이 목표라고 말했습니다.
5. "더 많은 컴퓨팅이 더 좋다"는 사고방식의 재고
가장 큰 GPU 클러스터를 추구하는 대신 다음과 같은 질문부터 해보세요: "원하는 결과를 얻기 위한 가장 지능적인 방법은 무엇일까요?"라고 질문하세요. 수많은 애플리케이션에서 더 스마트한 아키텍처와 더 잘 선별된 데이터 세트가 무차별적인 확장보다 더 나은 결과를 가져옵니다.
루치오니는 "대부분의 사람들이 생각하는 것만큼 많은 GPU가 필요하지 않을 것이라고 생각합니다."라고 말했습니다. 그녀는 기업이 GPU가 처리할 실제 작업, 왜 필요한지, 이전에 이러한 작업이 어떻게 수행되었는지, 추가 GPU가 실제로 어떤 실질적인 이점을 제공할 수 있는지 재고해 볼 것을 권장했습니다.
"지금은 모두가 더 큰 클러스터가 필요하다고 느끼는 바닥을 향한 경쟁이 되었습니다."라고 그녀는 말했습니다. "핵심은 AI를 사용하는 목적, 필요한 특정 기술, 그리고 이러한 기술이 실제로 무엇을 요구하는지 분석하는 것입니다."
아마존은 2025 년에 AI에 $ 100B를 소지합니다
최근의 버즈에도 불구하고 DeepSeek이 AI 예산 감소 시대를 안내 할 것이라고 제안했지만 Big Tech가 브레이크에 부딪 히고 있다는 표시는 없습니다. 반대로, 그들은 가스를 밟고 있습니다. 아마존
Nvidia는 차세대 GPU를 공개합니다 : Blackwell Ultra, Vera Rubin, Feynman
화요일 산호세에서 열린 NVIDIA의 GTC 2025 컨퍼런스에서 Jensen Huang CEO는 다가오는 GPU의 라인업을 발표했습니다. 쇼의 스타? Vera Rubin GPU는 2026 년 2 분의 2로 예정되어 있습니다. 이 짐승은 수십 기가 바이트의 기억을 자랑하며 관리자와 함께 제공됩니다.
재작성할 기사 제목을 알려주시겠어요?
예전에는 전문적인 프로필 사진을 찍으려면 사진작가를 고용하고, 스튜디오를 대여하며, 하루 중 적어도 한 시간을 할애해야 했습니다. 오늘날에는 AI 기반 플랫폼이 늘어나면서, 이러한 번거로운 과정을 모두 생략하고도 완성도 높고 바로 공개할 수 있는 사진을 얻을 수 있다고 약속합니다. 일부는 그 약속을 지키지만, 대부분은 그렇지 못합니다.가치 있는 AI 헤드샷





집






