Gemma 3 của Google đạt được 98% độ chính xác của Deepseek chỉ với một GPU
Ngày 01 tháng 5 năm 2025
RichardJackson
0
Kinh tế của trí tuệ nhân tạo đã trở thành một trọng tâm lớn gần đây, đặc biệt là với sự khởi nghiệp Deepseek AI thể hiện quy mô kinh tế ấn tượng trong việc sử dụng chip GPU. Nhưng Google không chịu thua kém. Vào thứ Tư, gã khổng lồ công nghệ đã tiết lộ mô hình ngôn ngữ lớn nguồn mở mới nhất của mình, Gemma 3, gần như phù hợp với độ chính xác của mô hình R1 của Deepseek, nhưng vẫn sử dụng sức mạnh tính toán ít hơn đáng kể.
Google đã đo lường hiệu suất này bằng điểm số "ELO", một hệ thống thường được sử dụng trong cờ vua và thể thao để xếp hạng các đối thủ cạnh tranh. Gemma 3 đã ghi được 1338, chỉ là 1363 của R1, có nghĩa là về mặt kỹ thuật R1 vượt trội hơn về mặt kỹ thuật Gemma 3. Tuy nhiên, Google ước tính rằng sẽ mất 32 chip GPU H100 của NVIDIA để đạt được điểm số của R1, trong khi Gemma 3 đạt được kết quả chỉ với một GPU H100 GPU. Google chào mời sự cân bằng của tính toán và điểm ELO này là "điểm ngọt ngào".
Trong một bài đăng trên blog, Google mô tả Gemma 3 là "mô hình có khả năng nhất bạn có thể chạy trên một GPU hoặc TPU duy nhất", đề cập đến chip AI tùy chỉnh của riêng nó, "đơn vị xử lý Tensor". Công ty tuyên bố rằng Gemma 3 "cung cấp hiệu suất hiện đại cho quy mô của nó", các mô hình vượt trội như LLAMA-405B, DeepSeek-V3 và O3-Mini trong các đánh giá sở thích của con người trên bảng xếp hạng của Lmarena. Hiệu suất này giúp dễ dàng tạo trải nghiệm người dùng hấp dẫn trên một máy chủ GPU hoặc TPU duy nhất.
Google
Mô hình của Google cũng vượt qua LLAMA 3 của Meta trong điểm ELO, mà Google ước tính sẽ yêu cầu 16 GPU. Điều đáng chú ý là những con số này cho các mô hình cạnh tranh là ước tính của Google; Deepseek AI chỉ được tiết lộ bằng cách sử dụng 1.814 GPU H800 kém mạnh mẽ của NVIDIA cho R1.
Thông tin sâu hơn có thể được tìm thấy trong một bài đăng trên blog của nhà phát triển về Huggingface, nơi có sẵn kho lưu trữ Gemma 3. Được thiết kế để sử dụng trên thiết bị thay vì các trung tâm dữ liệu, Gemma 3 có số lượng tham số nhỏ hơn đáng kể so với R1 và các mô hình nguồn mở khác. Với số lượng tham số dao động từ 1 tỷ đến 27 tỷ, Gemma 3 khá khiêm tốn theo các tiêu chuẩn hiện tại, trong khi R1 tự hào có 671 tỷ tham số khổng lồ, mặc dù nó có thể sử dụng một cách chọn lọc chỉ 37 tỷ.
Chìa khóa cho hiệu quả của Gemma 3 là một kỹ thuật AI được sử dụng rộng rãi gọi là chưng cất, trong đó trọng lượng mô hình được đào tạo từ một mô hình lớn hơn được chuyển sang một kỹ thuật nhỏ hơn, tăng cường khả năng của nó. Ngoài ra, mô hình chưng cất trải qua ba biện pháp kiểm soát chất lượng: Học tập củng cố từ phản hồi của con người (RLHF), học củng cố từ phản hồi của máy (RLMF) và học tập củng cố từ phản hồi thực thi (RLEF). Chúng giúp tinh chỉnh đầu ra của mô hình, làm cho chúng hữu ích hơn và cải thiện khả năng toán học và mã hóa của nó.
Blog nhà phát triển của Google chi tiết các phương pháp này và một bài đăng khác thảo luận về các kỹ thuật tối ưu hóa cho mô hình tham số 1 tỷ nhỏ nhất, nhắm vào các thiết bị di động. Chúng bao gồm lượng tử hóa, cập nhật bố cục bộ đệm có giá trị khóa, cải thiện thời gian tải biến và chia sẻ trọng lượng GPU.
Google so sánh Gemma 3 không chỉ trên điểm ELO mà còn so với người tiền nhiệm của nó, Gemma 2 và các mô hình Gemini nguồn đóng cửa của nó trên các điểm chuẩn khác nhau như LiveCodeBench. Mặc dù Gemma 3 thường không đạt được độ chính xác của Gemini 1.5 và Gemini 2.0, Google lưu ý rằng nó "cho thấy hiệu suất cạnh tranh so với các mô hình Gemini khép kín", mặc dù có ít thông số hơn.
Google
Một bản nâng cấp đáng kể trong Gemma 3 trên Gemma 2 là "cửa sổ bối cảnh" dài hơn, mở rộng từ 8.000 lên 128.000 mã thông báo. Điều này cho phép mô hình xử lý các văn bản lớn hơn như toàn bộ giấy tờ hoặc sách. Gemma 3 cũng đa phương thức, có khả năng xử lý cả đầu vào văn bản và hình ảnh, không giống như người tiền nhiệm của nó. Ngoài ra, nó hỗ trợ hơn 140 ngôn ngữ, một cải tiến lớn so với các khả năng tiếng Anh của Gemma 2.
Ngoài các tính năng chính này, có một số khía cạnh thú vị khác đối với Gemma 3. Một vấn đề với các mô hình ngôn ngữ lớn là khả năng ghi nhớ các phần của dữ liệu đào tạo của họ, điều này có thể dẫn đến vi phạm quyền riêng tư. Các nhà nghiên cứu của Google đã thử nghiệm Gemma 3 cho việc này và thấy nó ghi nhớ văn bản dài với tốc độ thấp hơn so với người tiền nhiệm của nó, cho thấy sự bảo vệ quyền riêng tư được cải thiện.
Đối với những người quan tâm đến Nitty-Gritty, bài viết kỹ thuật Gemma 3 cung cấp một sự phân chia kỹ lưỡng về khả năng và sự phát triển của mô hình.
Bài viết liên quan
Sử dụng chatgpt để tạo ra một thư xin việc vượt trội: Mẹo và thủ thuật
Tạo một sơ yếu lý lịch hoàn toàn tóm tắt sự nghiệp của bạn là đủ thách thức, nhưng các ứng dụng công việc thường cũng yêu cầu một lá thư xin việc. Bức thư này là cơ hội để bạn đi sâu vào các chi tiết cụ thể về lý do tại sao bạn quan tâm đến công ty, điều gì đủ điều kiện cho bạn cho vị trí này và tại sao bạn là người thẳng thắn nhất
Ba giải pháp để giải quyết các vấn đề phát âm giọng nói AI của Eleven Labs
Nếu bạn là một fan hâm mộ của Eleven Labs, trình tạo giọng nói của AI, bạn có thể đã gặp phải một số trục trặc trên đường đi. Đừng lo lắng, mặc dù; Bài viết này ở đây để giúp bạn điều hướng những vấn đề bực bội đó và giữ cho nội dung giọng nói AI của bạn trôi chảy. Từ việc xử lý các hạn chế địa chỉ IP đến Veri
Pika.art tiết lộ các tính năng và cập nhật video AI mới trong thiết kế lại
Pika.art, một người theo dõi trong cảnh tạo video điều khiển AI, vừa tung ra một bản facelift lớn. Trang web của nền tảng đã trải qua một thiết kế lại hoàn chỉnh và họ đã giới thiệu một số tính năng thay đổi trò chơi hứa hẹn sẽ nâng cao trải nghiệm làm video của bạn. Những bản cập nhật này là tất cả về việc thực hiện
Nhận xét (0)
0/200






Kinh tế của trí tuệ nhân tạo đã trở thành một trọng tâm lớn gần đây, đặc biệt là với sự khởi nghiệp Deepseek AI thể hiện quy mô kinh tế ấn tượng trong việc sử dụng chip GPU. Nhưng Google không chịu thua kém. Vào thứ Tư, gã khổng lồ công nghệ đã tiết lộ mô hình ngôn ngữ lớn nguồn mở mới nhất của mình, Gemma 3, gần như phù hợp với độ chính xác của mô hình R1 của Deepseek, nhưng vẫn sử dụng sức mạnh tính toán ít hơn đáng kể.
Google đã đo lường hiệu suất này bằng điểm số "ELO", một hệ thống thường được sử dụng trong cờ vua và thể thao để xếp hạng các đối thủ cạnh tranh. Gemma 3 đã ghi được 1338, chỉ là 1363 của R1, có nghĩa là về mặt kỹ thuật R1 vượt trội hơn về mặt kỹ thuật Gemma 3. Tuy nhiên, Google ước tính rằng sẽ mất 32 chip GPU H100 của NVIDIA để đạt được điểm số của R1, trong khi Gemma 3 đạt được kết quả chỉ với một GPU H100 GPU. Google chào mời sự cân bằng của tính toán và điểm ELO này là "điểm ngọt ngào".
Trong một bài đăng trên blog, Google mô tả Gemma 3 là "mô hình có khả năng nhất bạn có thể chạy trên một GPU hoặc TPU duy nhất", đề cập đến chip AI tùy chỉnh của riêng nó, "đơn vị xử lý Tensor". Công ty tuyên bố rằng Gemma 3 "cung cấp hiệu suất hiện đại cho quy mô của nó", các mô hình vượt trội như LLAMA-405B, DeepSeek-V3 và O3-Mini trong các đánh giá sở thích của con người trên bảng xếp hạng của Lmarena. Hiệu suất này giúp dễ dàng tạo trải nghiệm người dùng hấp dẫn trên một máy chủ GPU hoặc TPU duy nhất.
Google
Mô hình của Google cũng vượt qua LLAMA 3 của Meta trong điểm ELO, mà Google ước tính sẽ yêu cầu 16 GPU. Điều đáng chú ý là những con số này cho các mô hình cạnh tranh là ước tính của Google; Deepseek AI chỉ được tiết lộ bằng cách sử dụng 1.814 GPU H800 kém mạnh mẽ của NVIDIA cho R1.
Thông tin sâu hơn có thể được tìm thấy trong một bài đăng trên blog của nhà phát triển về Huggingface, nơi có sẵn kho lưu trữ Gemma 3. Được thiết kế để sử dụng trên thiết bị thay vì các trung tâm dữ liệu, Gemma 3 có số lượng tham số nhỏ hơn đáng kể so với R1 và các mô hình nguồn mở khác. Với số lượng tham số dao động từ 1 tỷ đến 27 tỷ, Gemma 3 khá khiêm tốn theo các tiêu chuẩn hiện tại, trong khi R1 tự hào có 671 tỷ tham số khổng lồ, mặc dù nó có thể sử dụng một cách chọn lọc chỉ 37 tỷ.
Chìa khóa cho hiệu quả của Gemma 3 là một kỹ thuật AI được sử dụng rộng rãi gọi là chưng cất, trong đó trọng lượng mô hình được đào tạo từ một mô hình lớn hơn được chuyển sang một kỹ thuật nhỏ hơn, tăng cường khả năng của nó. Ngoài ra, mô hình chưng cất trải qua ba biện pháp kiểm soát chất lượng: Học tập củng cố từ phản hồi của con người (RLHF), học củng cố từ phản hồi của máy (RLMF) và học tập củng cố từ phản hồi thực thi (RLEF). Chúng giúp tinh chỉnh đầu ra của mô hình, làm cho chúng hữu ích hơn và cải thiện khả năng toán học và mã hóa của nó.
Blog nhà phát triển của Google chi tiết các phương pháp này và một bài đăng khác thảo luận về các kỹ thuật tối ưu hóa cho mô hình tham số 1 tỷ nhỏ nhất, nhắm vào các thiết bị di động. Chúng bao gồm lượng tử hóa, cập nhật bố cục bộ đệm có giá trị khóa, cải thiện thời gian tải biến và chia sẻ trọng lượng GPU.
Google so sánh Gemma 3 không chỉ trên điểm ELO mà còn so với người tiền nhiệm của nó, Gemma 2 và các mô hình Gemini nguồn đóng cửa của nó trên các điểm chuẩn khác nhau như LiveCodeBench. Mặc dù Gemma 3 thường không đạt được độ chính xác của Gemini 1.5 và Gemini 2.0, Google lưu ý rằng nó "cho thấy hiệu suất cạnh tranh so với các mô hình Gemini khép kín", mặc dù có ít thông số hơn.
Google
Một bản nâng cấp đáng kể trong Gemma 3 trên Gemma 2 là "cửa sổ bối cảnh" dài hơn, mở rộng từ 8.000 lên 128.000 mã thông báo. Điều này cho phép mô hình xử lý các văn bản lớn hơn như toàn bộ giấy tờ hoặc sách. Gemma 3 cũng đa phương thức, có khả năng xử lý cả đầu vào văn bản và hình ảnh, không giống như người tiền nhiệm của nó. Ngoài ra, nó hỗ trợ hơn 140 ngôn ngữ, một cải tiến lớn so với các khả năng tiếng Anh của Gemma 2.
Ngoài các tính năng chính này, có một số khía cạnh thú vị khác đối với Gemma 3. Một vấn đề với các mô hình ngôn ngữ lớn là khả năng ghi nhớ các phần của dữ liệu đào tạo của họ, điều này có thể dẫn đến vi phạm quyền riêng tư. Các nhà nghiên cứu của Google đã thử nghiệm Gemma 3 cho việc này và thấy nó ghi nhớ văn bản dài với tốc độ thấp hơn so với người tiền nhiệm của nó, cho thấy sự bảo vệ quyền riêng tư được cải thiện.
Đối với những người quan tâm đến Nitty-Gritty, bài viết kỹ thuật Gemma 3 cung cấp một sự phân chia kỹ lưỡng về khả năng và sự phát triển của mô hình.












