옵션
뉴스
구글의 최신 제미니 AI 모델은 테스트에서 안전 점수가 하락하고 있습니다.

구글의 최신 제미니 AI 모델은 테스트에서 안전 점수가 하락하고 있습니다.

2025년 9월 19일
0

Google의 내부 테스트 결과 최신 AI 모델의 안전 프로토콜이 이전 버전에 비해 성능이 저하된 것으로 나타났습니다. 새로 발표된 벤치마크에 따르면 Gemini 2.5 플래시 모델은 텍스트와 이미지 프롬프트를 모두 처리할 때 주요 안전 지표에서 가이드라인 위반 비율이 4~10% 더 높은 것으로 나타났습니다.

이 기술 대기업의 자동화된 평가는 우려스러운 경향을 보여줍니다. 경계 테스트 프롬프트가 표시될 때 Gemini 2.5 Flash는 이전 버전인 Gemini 2.0보다 콘텐츠 안전 선을 더 자주 넘었습니다. Google의 기술팀은 일부 실패의 원인을 오탐으로 보고 있지만, 시스템이 명시적으로 문제가 있는 요청을 수신할 때 정책을 위반하는 출력의 실제 증가를 인정하고 있습니다.

이러한 안전성의 퇴보는 보다 허용적인 AI 시스템으로의 광범위한 업계 변화와 맞물려 있습니다. Meta와 OpenAI를 비롯한 주요 업체들은 최근 논란이 되는 주제에 대해 기권하는 대신 민감한 주제에 중립적인 대응을 시도하도록 모델을 조정하고 있습니다. 하지만 이러한 변화는 때때로 의도하지 않은 결과를 낳기도 하는데, 이번 주 초에 ChatGPT가 미성년자를 위한 부적절한 콘텐츠 생성을 일시적으로 허용한 사례에서 볼 수 있듯이 말입니다.

Google의 보고서에 따르면 새 모델은 윤리적으로 의심스러운 지시를 포함하여 지침을 충실히 따르는 데 탁월하다고 합니다. 독립적인 테스트 결과 Gemini 2.5 플래시는 이전 버전에 비해 논란이 되는 정치 및 법적 주제를 처리할 때 거부율이 현저히 감소한 것으로 나타났습니다.

AI 안전 전문가들은 Google의 보고에서 제한적인 공개에 대해 우려를 표명합니다. 보다 자세한 위반 사례 연구가 없으면 외부 평가자들은 이러한 안전 퇴행의 실제 심각성을 평가하는 데 어려움을 겪습니다. 구글은 올해 초 플래그십 모델인 Gemini 2.5 Pro를 포함해 안전 문서가 지연되거나 불완전하다는 비판에 직면한 적이 있습니다.

제한 없는 명령어 추종 기능과 강력한 콘텐츠 안전장치 사이의 긴장은 AI 개발자들에게 지속적인 과제를 제시합니다. 미묘한 요청을 해석하는 모델이 더욱 정교해짐에 따라 적절한 응답 경계를 유지하려면 신중한 조정이 필요하며, Google의 최신 지표에 따르면 이러한 균형이 허용적인 쪽으로 기울어지고 있을 수 있습니다.

관련 기사
앱 디자인 프로세스를 간소화하는 구글의 스티치 AI 앱 디자인 프로세스를 간소화하는 구글의 스티치 AI 구글, I/O 2025에서 AI 디자인 도구 Stitch 공개Google은 Google I/O 2025 기조연설에서 혁신적인 AI 기반 인터페이스 디자인 도구인 Stitch를 소개했습니다. 이 혁신적인 솔루션은 자연어 프롬프트나 참조 이미지를 프로덕션에 바로 사용할 수 있는 HTML 및 CSS 코드가 포함된 완전한 기능의 UI 디자인으로 변환합니다.Stit
Google, Gmail, 문서 및 동영상용 AI 기반 도구 출시 Google, Gmail, 문서 및 동영상용 AI 기반 도구 출시 Google, I/O 2025에서 AI 기반 Workspace 업데이트 공개Google은 연례 개발자 컨퍼런스에서 사용자가 Gmail, 문서도구, 동영상과 상호작용하는 방식을 근본적으로 변화시키는 혁신적인 AI 기능을 Workspace 제품군에 도입한다고 발표했습니다. 이번 업데이트는 생산성 애플리케이션 전반의 지능형 자동화와 간소화된 워크플로우에 중점을
구글이 곧 출시될 안드로이드 디자인 언어의 세부 사항을 유출했습니다: Material 3 표현식 구글이 곧 출시될 안드로이드 디자인 언어의 세부 사항을 유출했습니다: Material 3 표현식 구글, I/O에서 차세대 안드로이드 디자인 시스템 공개 준비 중공개된 이벤트 일정과 실수로 유출된 블로그 게시물을 통해 밝혀진 바와 같이, 구글은 다가오는 구글 I/O 개발자 컨퍼런스에서 안드로이드 디자인 언어의 획기적인 진화를 선보일 예정입니다. '머티리얼 3'에서 '머티리얼 디자인 3 익스프레시브'로 전환되는 다음 버전에서는 UI 디자인을 통해 감성적인
의견 (0)
0/200
위로 돌아갑니다
OR