

Các chuyên gia nêu bật những sai sót nghiêm trọng trong điểm chuẩn AI của đám đông
Ngày 25 tháng 4 năm 2025
JamesWalker
6
AI Labs đang ngày càng chuyển sang các nền tảng điểm chuẩn của đám đông như đấu trường Chatbot để đánh giá khả năng của các mô hình mới nhất của họ. Tuy nhiên, một số chuyên gia cho rằng phương pháp này làm tăng mối quan tâm về đạo đức và học thuật đáng kể.
Trong những năm gần đây, những người chơi lớn như Openai, Google và Meta đã sử dụng các nền tảng thu hút người dùng để đánh giá hiệu suất của các mô hình sắp tới của họ. Một số điểm cao trên các nền tảng này thường được các phòng thí nghiệm nhấn mạnh như là một minh chứng cho sự tiến bộ của mô hình của họ. Tuy nhiên, cách tiếp cận này không phải là không có các nhà phê bình của nó.
Bài phê bình về điểm chuẩn đám đông
Emily Bender, giáo sư ngôn ngữ học tại Đại học Washington và đồng tác giả của "AI Con", đã lên tiếng lo ngại về tính hợp lệ của các điểm chuẩn như vậy, đặc biệt là đấu trường Chatbot. Nền tảng này liên quan đến các tình nguyện viên so sánh các phản hồi từ hai mô hình ẩn danh và chọn mô hình ưa thích của họ. Bender lập luận rằng để một điểm chuẩn có hiệu quả, nó phải đo lường một cái gì đó cụ thể và chứng minh tính hợp lệ của cấu trúc, nghĩa là phép đo sẽ phản ánh chính xác cấu trúc được đánh giá. Cô cho rằng đấu trường chatbot thiếu bằng chứng cho thấy sở thích của người dùng cho một đầu ra so với một đầu ra khác thực sự tương quan với bất kỳ tiêu chí xác định nào.
Asmelash Teka Hadgu, đồng sáng lập của công ty AI Lesan và là thành viên của Viện nghiên cứu AI phân tán, cho thấy các điểm chuẩn này đang được AI Labs khai thác để đưa ra tuyên bố phóng đại về các mô hình của họ. Anh ấy đã trích dẫn một sự cố gần đây với mô hình Llama 4 Maverick của Meta, nơi Meta tinh chỉnh một phiên bản để biểu diễn tốt trên đấu trường Chatbot nhưng đã chọn phát hành phiên bản kém hiệu quả hơn. Hadgu ủng hộ các điểm chuẩn là năng động, được phân phối trên nhiều thực thể độc lập và phù hợp với các trường hợp sử dụng cụ thể trong các lĩnh vực như giáo dục và chăm sóc sức khỏe bởi các chuyên gia sử dụng các mô hình này trong công việc của họ.
Lời kêu gọi bồi thường công bằng và các phương pháp đánh giá rộng hơn
Hadgu và Kristine Gloria, cựu lãnh đạo của sáng kiến công nghệ mới nổi và thông minh của Viện Aspen, cho rằng các nhà đánh giá nên được bù đắp cho công việc của họ, thu hút sự tương đồng với ngành công nghiệp ghi nhãn dữ liệu thường bị khai thác. Gloria xem các điểm chuẩn được đánh giá cao là có giá trị, gần giống với các sáng kiến khoa học công dân, nhưng nhấn mạnh rằng các điểm chuẩn không nên là số liệu duy nhất để đánh giá, đặc biệt là với tốc độ đổi mới của ngành.
Matt Fredrikson, Giám đốc điều hành của Gray Swan AI, nơi tiến hành các chiến dịch hợp tác màu đỏ đám đông, thừa nhận sự hấp dẫn của các nền tảng như vậy cho các tình nguyện viên đang tìm cách học và thực hành các kỹ năng mới. Tuy nhiên, ông nhấn mạnh rằng các điểm chuẩn công cộng không thể thay thế các đánh giá chuyên sâu hơn được cung cấp bởi các đánh giá tư nhân được trả lương. Fredrikson cho rằng các nhà phát triển cũng nên dựa vào các điểm chuẩn nội bộ, các nhóm màu đỏ thuật toán và các chuyên gia ký hợp đồng, những người có thể cung cấp những hiểu biết cụ thể và cụ thể của miền.
Quan điểm của ngành về điểm chuẩn
Alex Atallah, Giám đốc điều hành của Model Marketplace Openrouter và Wei-Lin Chiang, một sinh viên tiến sĩ AI tại UC Berkeley và một trong những người sáng lập của Lmarena (quản lý đấu trường Chatbot), đồng ý rằng thử nghiệm mở và điểm chuẩn là không đủ. Chiang nhấn mạnh rằng mục tiêu của Lmarena là cung cấp một không gian mở, đáng tin cậy để đo lường các ưu tiên của cộng đồng về các mô hình AI khác nhau.
Giải quyết cuộc tranh cãi xung quanh điểm chuẩn Maverick, Tưởng làm rõ rằng những sự cố như vậy không phải do sai sót trong thiết kế của đấu trường Chatbot mà là giải thích sai các chính sách của nó bởi các phòng thí nghiệm. Kể từ đó, Lmarena đã cập nhật các chính sách của mình để đảm bảo các đánh giá công bằng và có thể tái tạo. Chiang nhấn mạnh rằng cộng đồng của nền tảng không chỉ đơn thuần là một nhóm tình nguyện viên hoặc người thử nghiệm mà là một nhóm tham gia cung cấp phản hồi tập thể về các mô hình AI.

Cuộc tranh luận đang diễn ra xung quanh việc sử dụng các nền tảng điểm chuẩn đám đông nhấn mạnh sự cần thiết phải tiếp cận nhiều sắc thái hơn để đánh giá mô hình AI, kết hợp đầu vào công khai với các đánh giá chuyên nghiệp, nghiêm ngặt để đảm bảo cả độ chính xác và công bằng.
Bài viết liên quan
Chương trình ra mắt nhân học để nghiên cứu 'phúc lợi mô hình' AI '
AI tương lai có thể có ý thức? Câu hỏi liệu các AI trong tương lai có thể trải nghiệm thế giới theo cách tương tự như con người là hấp dẫn hay không, nhưng vẫn chưa được trả lời. Mặc dù không có bằng chứng dứt khoát rằng họ sẽ làm, AI Lab Anthropic không loại bỏ khả năng hoàn toàn. Vào thứ năm, Anthro
Xu hướng váy ren-up: Mẹo tạo kiểu và ý tưởng trang phục để khuấy động chúng
Váy ren-up đã trở thành một xu hướng nóng, hợp nhất một cạnh táo bạo với một chút nữ tính. Những chiếc váy này, được biết đến với các chi tiết ren-up bắt mắt, là một cách dành cho những người yêu thích thời trang tìm cách gia vị tủ quần áo của họ. Cho dù bạn đang nói một tuyên bố kịch tính hay một gợi ý tinh tế về phong cách, hãy đến GR
AI thực dụng: nổi bật một sự cân bằng giữa sự nhiệt tình và hoài nghi trong phát triển
Trong thế giới không ngừng phát triển của trí tuệ nhân tạo, việc duy trì một quan điểm cân bằng là điều cần thiết cho các nhà phát triển làm việc trong hệ sinh thái .NET và C#. Trong khi tiềm năng của AI là ly kỳ, một liều lượng hoài nghi đảm bảo sự tích hợp thực tế và hiệu quả của nó. Bài viết này có một appr thực dụng
Nhận xét (0)
0/200






AI Labs đang ngày càng chuyển sang các nền tảng điểm chuẩn của đám đông như đấu trường Chatbot để đánh giá khả năng của các mô hình mới nhất của họ. Tuy nhiên, một số chuyên gia cho rằng phương pháp này làm tăng mối quan tâm về đạo đức và học thuật đáng kể.
Trong những năm gần đây, những người chơi lớn như Openai, Google và Meta đã sử dụng các nền tảng thu hút người dùng để đánh giá hiệu suất của các mô hình sắp tới của họ. Một số điểm cao trên các nền tảng này thường được các phòng thí nghiệm nhấn mạnh như là một minh chứng cho sự tiến bộ của mô hình của họ. Tuy nhiên, cách tiếp cận này không phải là không có các nhà phê bình của nó.
Bài phê bình về điểm chuẩn đám đông
Emily Bender, giáo sư ngôn ngữ học tại Đại học Washington và đồng tác giả của "AI Con", đã lên tiếng lo ngại về tính hợp lệ của các điểm chuẩn như vậy, đặc biệt là đấu trường Chatbot. Nền tảng này liên quan đến các tình nguyện viên so sánh các phản hồi từ hai mô hình ẩn danh và chọn mô hình ưa thích của họ. Bender lập luận rằng để một điểm chuẩn có hiệu quả, nó phải đo lường một cái gì đó cụ thể và chứng minh tính hợp lệ của cấu trúc, nghĩa là phép đo sẽ phản ánh chính xác cấu trúc được đánh giá. Cô cho rằng đấu trường chatbot thiếu bằng chứng cho thấy sở thích của người dùng cho một đầu ra so với một đầu ra khác thực sự tương quan với bất kỳ tiêu chí xác định nào.
Asmelash Teka Hadgu, đồng sáng lập của công ty AI Lesan và là thành viên của Viện nghiên cứu AI phân tán, cho thấy các điểm chuẩn này đang được AI Labs khai thác để đưa ra tuyên bố phóng đại về các mô hình của họ. Anh ấy đã trích dẫn một sự cố gần đây với mô hình Llama 4 Maverick của Meta, nơi Meta tinh chỉnh một phiên bản để biểu diễn tốt trên đấu trường Chatbot nhưng đã chọn phát hành phiên bản kém hiệu quả hơn. Hadgu ủng hộ các điểm chuẩn là năng động, được phân phối trên nhiều thực thể độc lập và phù hợp với các trường hợp sử dụng cụ thể trong các lĩnh vực như giáo dục và chăm sóc sức khỏe bởi các chuyên gia sử dụng các mô hình này trong công việc của họ.
Lời kêu gọi bồi thường công bằng và các phương pháp đánh giá rộng hơn
Hadgu và Kristine Gloria, cựu lãnh đạo của sáng kiến công nghệ mới nổi và thông minh của Viện Aspen, cho rằng các nhà đánh giá nên được bù đắp cho công việc của họ, thu hút sự tương đồng với ngành công nghiệp ghi nhãn dữ liệu thường bị khai thác. Gloria xem các điểm chuẩn được đánh giá cao là có giá trị, gần giống với các sáng kiến khoa học công dân, nhưng nhấn mạnh rằng các điểm chuẩn không nên là số liệu duy nhất để đánh giá, đặc biệt là với tốc độ đổi mới của ngành.
Matt Fredrikson, Giám đốc điều hành của Gray Swan AI, nơi tiến hành các chiến dịch hợp tác màu đỏ đám đông, thừa nhận sự hấp dẫn của các nền tảng như vậy cho các tình nguyện viên đang tìm cách học và thực hành các kỹ năng mới. Tuy nhiên, ông nhấn mạnh rằng các điểm chuẩn công cộng không thể thay thế các đánh giá chuyên sâu hơn được cung cấp bởi các đánh giá tư nhân được trả lương. Fredrikson cho rằng các nhà phát triển cũng nên dựa vào các điểm chuẩn nội bộ, các nhóm màu đỏ thuật toán và các chuyên gia ký hợp đồng, những người có thể cung cấp những hiểu biết cụ thể và cụ thể của miền.
Quan điểm của ngành về điểm chuẩn
Alex Atallah, Giám đốc điều hành của Model Marketplace Openrouter và Wei-Lin Chiang, một sinh viên tiến sĩ AI tại UC Berkeley và một trong những người sáng lập của Lmarena (quản lý đấu trường Chatbot), đồng ý rằng thử nghiệm mở và điểm chuẩn là không đủ. Chiang nhấn mạnh rằng mục tiêu của Lmarena là cung cấp một không gian mở, đáng tin cậy để đo lường các ưu tiên của cộng đồng về các mô hình AI khác nhau.
Giải quyết cuộc tranh cãi xung quanh điểm chuẩn Maverick, Tưởng làm rõ rằng những sự cố như vậy không phải do sai sót trong thiết kế của đấu trường Chatbot mà là giải thích sai các chính sách của nó bởi các phòng thí nghiệm. Kể từ đó, Lmarena đã cập nhật các chính sách của mình để đảm bảo các đánh giá công bằng và có thể tái tạo. Chiang nhấn mạnh rằng cộng đồng của nền tảng không chỉ đơn thuần là một nhóm tình nguyện viên hoặc người thử nghiệm mà là một nhóm tham gia cung cấp phản hồi tập thể về các mô hình AI.
Cuộc tranh luận đang diễn ra xung quanh việc sử dụng các nền tảng điểm chuẩn đám đông nhấn mạnh sự cần thiết phải tiếp cận nhiều sắc thái hơn để đánh giá mô hình AI, kết hợp đầu vào công khai với các đánh giá chuyên nghiệp, nghiêm ngặt để đảm bảo cả độ chính xác và công bằng.



5 bước dễ dàng để đòi lại quyền riêng tư dữ liệu trực tuyến của bạn - Bắt đầu ngay hôm nay









