एआई बेंचमार्क: क्या हमें उन्हें अभी के लिए अनदेखा करना चाहिए?
TechCrunch के नियमित AI न्यूज़लेटर में आपका स्वागत है! हम थोड़ा ब्रेक ले रहे हैं, लेकिन चिंता न करें, आप अभी भी हमारे सभी एआई कवरेज प्राप्त कर सकते हैं, जिसमें मेरे कॉलम, दैनिक विश्लेषण और ब्रेकिंग न्यूज शामिल हैं, यहीं टेकक्रंच में। इन कहानियों को सीधे अपने इनबॉक्स में हर दिन प्राप्त करना चाहते हैं? बस हमारे दैनिक समाचार पत्र के लिए साइन अप करें।
इस हफ्ते, एलोन मस्क के एआई स्टार्टअप, XAI ने अपने नवीनतम फ्लैगशिप एआई मॉडल, ग्रोक 3 को छोड़ दिया, जो कंपनी के ग्रोक चैटबॉट ऐप्स को पावर दे रहा है। उन्होंने इसे 200,000 GPU पर प्रशिक्षित किया, और यह अन्य शीर्ष मॉडलों के एक समूह से बेहतर प्रदर्शन कर रहा है, जिसमें ओपनईआई से कुछ शामिल हैं, गणित, कोडिंग और बहुत कुछ के लिए बेंचमार्क में।
लेकिन आइए बात करते हैं कि इन बेंचमार्क का वास्तव में क्या मतलब है।
यहां टीसी में, हम इन बेंचमार्क नंबरों पर रिपोर्ट करते हैं, भले ही हम हमेशा इसके बारे में रोमांचित न हों, क्योंकि वे उन कुछ तरीकों में से एक हैं जो एआई उद्योग यह दिखाने की कोशिश करते हैं कि उनके मॉडल कैसे सुधार कर रहे हैं। बात यह है कि, ये लोकप्रिय एआई बेंचमार्क अक्सर अस्पष्ट सामान पर ध्यान केंद्रित करते हैं और स्कोर देते हैं जो वास्तव में यह नहीं दर्शाते हैं कि एआई कितनी अच्छी तरह से उन चीजों की परवाह करता है जिनकी वास्तव में परवाह है।
व्हार्टन के एक प्रोफेसर एथन मोलिक ने एक्स में यह कहने के लिए कि उन्हें चलाने के लिए बेहतर परीक्षण और स्वतंत्र समूहों की वास्तविक आवश्यकता है। उन्होंने कहा कि एआई कंपनियां अक्सर अपने स्वयं के बेंचमार्क परिणामों की रिपोर्ट करती हैं, जिससे उन्हें पूरी तरह से भरोसा करना मुश्किल हो जाता है।
मोलिक ने लिखा, "सार्वजनिक बेंचमार्क दोनों 'मेह' हैं और संतृप्त हैं, जिससे एआई परीक्षण का बहुत कुछ भोजन समीक्षाओं की तरह है, स्वाद के आधार पर," मोलिक ने लिखा। "यदि एआई काम करने के लिए महत्वपूर्ण है, तो हमें और अधिक की आवश्यकता है।"
वहाँ बहुत सारे लोग हैं, जो एआई के लिए नए बेंचमार्क के साथ आने की कोशिश कर रहे हैं, लेकिन कोई भी इस बात पर सहमत नहीं हो सकता है कि सबसे अच्छा क्या है। कुछ लोग सोचते हैं कि बेंचमार्क को उपयोगी होने के लिए आर्थिक प्रभाव पर ध्यान केंद्रित करना चाहिए, जबकि अन्य का मानना है कि वास्तविक दुनिया को अपनाना और उपयोगिता सफलता के सही उपाय हैं।
यह बहस हमेशा के लिए चल सकती है। हो सकता है, जैसे कि एक्स यूजर रोओन का सुझाव है, हमें बस नए मॉडल और बेंचमार्क पर कम ध्यान देना चाहिए जब तक कि कोई प्रमुख एआई सफलता न हो। यह हमारी पवित्रता के लिए बेहतर हो सकता है, भले ही इसका मतलब है कि कुछ एआई प्रचार से गायब है।
जैसा कि उल्लेख किया गया है, एआई में यह सप्ताह एक ब्रेक ले रहा है। हमारे साथ, पाठकों के साथ, सभी उतार -चढ़ाव के माध्यम से चिपके रहने के लिए धन्यवाद। अगली बार तक।
समाचार

छवि क्रेडिट: नाथन लाईन / ब्लूमबर्ग / गेटी इमेजेज Openai "Uncensor" Chatgpt की कोशिश कर रहा है। मैक्स ने लिखा कि कैसे वे "बौद्धिक स्वतंत्रता" को गले लगाने के लिए एआई विकास के लिए अपना दृष्टिकोण बदल रहे हैं, यहां तक कि कठिन या विवादास्पद विषयों पर भी।
ओपनई के पूर्व सीटीओ मीरा मुराती के पास एक नया स्टार्टअप है जिसे थिंकिंग मशीन लैब कहा जाता है। वे उपकरणों पर काम कर रहे हैं "[लोगों की] अद्वितीय आवश्यकताओं और लक्ष्यों के लिए एआई काम करें।"
XAI ने ग्रोक 3 जारी किया और आईओएस और वेब के लिए ग्रोक ऐप्स में नई सुविधाएँ जोड़ीं।
मेटा अपने पहले डेवलपर सम्मेलन की मेजबानी कर रहा है जो इस वसंत में उदार एआई पर केंद्रित है। इसे लामाकॉन कहा जाता है, उनके लामा मॉडल के बाद, और यह 29 अप्रैल को हो रहा है।
पॉल ने ओपेनियुरोल्म के बारे में लिखा, जो "यूरोप में पारदर्शी एआई" के लिए फाउंडेशन मॉडल बनाने के लिए लगभग 20 संगठनों द्वारा एक परियोजना है, जो सभी यूरोपीय संघ की भाषाओं के "भाषाई और सांस्कृतिक विविधता" का सम्मान करता है।
सप्ताह का शोध पत्र

छवि क्रेडिट: Jakub porzycki / nurphoto / getty चित्र Openai शोधकर्ताओं ने SWE-Lancer नामक एक नए AI बेंचमार्क के साथ आकर यह परीक्षण किया है कि AI कितनी अच्छी तरह से कोड कर सकता है। यह 1,400 से अधिक फ्रीलांस सॉफ्टवेयर इंजीनियरिंग कार्यों से बना है, बग्स को ठीक करने और तकनीकी कार्यान्वयन के प्रस्ताव के लिए सुविधाओं को जोड़ने से।
Openai का कहना है कि शीर्ष प्रदर्शन करने वाले मॉडल, एंथ्रोपिक के क्लाउड 3.5 Sonnet, ने केवल पूर्ण SWE-Lancer बेंचमार्क पर 40.3% स्कोर किया, जो दिखाता है कि AI अभी भी एक लंबा रास्ता तय करने के लिए है। उन्होंने चीन से Openai के O3-Mini या DeepSeek के R1 जैसे नए मॉडल का परीक्षण नहीं किया।
सप्ताह का मॉडल
स्टेपफुन नामक एक चीनी एआई कंपनी ने स्टेप-ऑडियो नाम का एक "ओपन" एआई मॉडल जारी किया जो चीनी, अंग्रेजी और जापानी में भाषण को समझ और उत्पन्न कर सकता है। उपयोगकर्ता भी गायन सहित सिंथेटिक ऑडियो की भावना और बोली को मोड़ सकते हैं।
स्टेपफुन कई अच्छी तरह से वित्त पोषित चीनी एआई स्टार्टअप्स में से एक है जो अनुमेय लाइसेंस के साथ मॉडल जारी करता है। 2023 में स्थापित, उन्होंने हाल ही में निवेशकों से सैकड़ों करोड़ों मूल्य के एक फंडिंग दौर को बंद कर दिया, जिसमें चीनी राज्य के स्वामित्व वाली निजी इक्विटी फर्म शामिल हैं।
हड़पने वाला बैग

छवि क्रेडिट: nous अनुसंधान एआई रिसर्च ग्रुप, नूस रिसर्च, का दावा है कि पहले एआई मॉडल में से एक जारी किया गया है जो "सहज भाषा मॉडल क्षमताओं" के साथ तर्क को जोड़ता है।
उनका मॉडल, डीपहर्मेस -3 पूर्वावलोकन, सटीकता और कम्प्यूटेशनल पावर को संतुलित करने के लिए लघु और लंबी "चेन ऑफ थॉट" के बीच स्विच कर सकता है। "रीज़निंग" मोड में, कठिन समस्याओं को हल करने में अधिक समय लगता है और रास्ते में इसकी विचार प्रक्रिया को दिखाता है।
एंथ्रोपिक कथित तौर पर जल्द ही एक समान मॉडल को जारी करने की योजना बना रहा है, और ओपनईई का कहना है कि यह उनके निकट अवधि के रोडमैप पर है।
संबंधित लेख
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
सूचना (55)
0/200
FredAnderson
10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0
TechCrunch के नियमित AI न्यूज़लेटर में आपका स्वागत है! हम थोड़ा ब्रेक ले रहे हैं, लेकिन चिंता न करें, आप अभी भी हमारे सभी एआई कवरेज प्राप्त कर सकते हैं, जिसमें मेरे कॉलम, दैनिक विश्लेषण और ब्रेकिंग न्यूज शामिल हैं, यहीं टेकक्रंच में। इन कहानियों को सीधे अपने इनबॉक्स में हर दिन प्राप्त करना चाहते हैं? बस हमारे दैनिक समाचार पत्र के लिए साइन अप करें।
इस हफ्ते, एलोन मस्क के एआई स्टार्टअप, XAI ने अपने नवीनतम फ्लैगशिप एआई मॉडल, ग्रोक 3 को छोड़ दिया, जो कंपनी के ग्रोक चैटबॉट ऐप्स को पावर दे रहा है। उन्होंने इसे 200,000 GPU पर प्रशिक्षित किया, और यह अन्य शीर्ष मॉडलों के एक समूह से बेहतर प्रदर्शन कर रहा है, जिसमें ओपनईआई से कुछ शामिल हैं, गणित, कोडिंग और बहुत कुछ के लिए बेंचमार्क में।
लेकिन आइए बात करते हैं कि इन बेंचमार्क का वास्तव में क्या मतलब है।
यहां टीसी में, हम इन बेंचमार्क नंबरों पर रिपोर्ट करते हैं, भले ही हम हमेशा इसके बारे में रोमांचित न हों, क्योंकि वे उन कुछ तरीकों में से एक हैं जो एआई उद्योग यह दिखाने की कोशिश करते हैं कि उनके मॉडल कैसे सुधार कर रहे हैं। बात यह है कि, ये लोकप्रिय एआई बेंचमार्क अक्सर अस्पष्ट सामान पर ध्यान केंद्रित करते हैं और स्कोर देते हैं जो वास्तव में यह नहीं दर्शाते हैं कि एआई कितनी अच्छी तरह से उन चीजों की परवाह करता है जिनकी वास्तव में परवाह है।
व्हार्टन के एक प्रोफेसर एथन मोलिक ने एक्स में यह कहने के लिए कि उन्हें चलाने के लिए बेहतर परीक्षण और स्वतंत्र समूहों की वास्तविक आवश्यकता है। उन्होंने कहा कि एआई कंपनियां अक्सर अपने स्वयं के बेंचमार्क परिणामों की रिपोर्ट करती हैं, जिससे उन्हें पूरी तरह से भरोसा करना मुश्किल हो जाता है।
मोलिक ने लिखा, "सार्वजनिक बेंचमार्क दोनों 'मेह' हैं और संतृप्त हैं, जिससे एआई परीक्षण का बहुत कुछ भोजन समीक्षाओं की तरह है, स्वाद के आधार पर," मोलिक ने लिखा। "यदि एआई काम करने के लिए महत्वपूर्ण है, तो हमें और अधिक की आवश्यकता है।"
वहाँ बहुत सारे लोग हैं, जो एआई के लिए नए बेंचमार्क के साथ आने की कोशिश कर रहे हैं, लेकिन कोई भी इस बात पर सहमत नहीं हो सकता है कि सबसे अच्छा क्या है। कुछ लोग सोचते हैं कि बेंचमार्क को उपयोगी होने के लिए आर्थिक प्रभाव पर ध्यान केंद्रित करना चाहिए, जबकि अन्य का मानना है कि वास्तविक दुनिया को अपनाना और उपयोगिता सफलता के सही उपाय हैं।
यह बहस हमेशा के लिए चल सकती है। हो सकता है, जैसे कि एक्स यूजर रोओन का सुझाव है, हमें बस नए मॉडल और बेंचमार्क पर कम ध्यान देना चाहिए जब तक कि कोई प्रमुख एआई सफलता न हो। यह हमारी पवित्रता के लिए बेहतर हो सकता है, भले ही इसका मतलब है कि कुछ एआई प्रचार से गायब है।
जैसा कि उल्लेख किया गया है, एआई में यह सप्ताह एक ब्रेक ले रहा है। हमारे साथ, पाठकों के साथ, सभी उतार -चढ़ाव के माध्यम से चिपके रहने के लिए धन्यवाद। अगली बार तक।
समाचार
ओपनई के पूर्व सीटीओ मीरा मुराती के पास एक नया स्टार्टअप है जिसे थिंकिंग मशीन लैब कहा जाता है। वे उपकरणों पर काम कर रहे हैं "[लोगों की] अद्वितीय आवश्यकताओं और लक्ष्यों के लिए एआई काम करें।"
XAI ने ग्रोक 3 जारी किया और आईओएस और वेब के लिए ग्रोक ऐप्स में नई सुविधाएँ जोड़ीं।
मेटा अपने पहले डेवलपर सम्मेलन की मेजबानी कर रहा है जो इस वसंत में उदार एआई पर केंद्रित है। इसे लामाकॉन कहा जाता है, उनके लामा मॉडल के बाद, और यह 29 अप्रैल को हो रहा है।
पॉल ने ओपेनियुरोल्म के बारे में लिखा, जो "यूरोप में पारदर्शी एआई" के लिए फाउंडेशन मॉडल बनाने के लिए लगभग 20 संगठनों द्वारा एक परियोजना है, जो सभी यूरोपीय संघ की भाषाओं के "भाषाई और सांस्कृतिक विविधता" का सम्मान करता है।
सप्ताह का शोध पत्र
Openai का कहना है कि शीर्ष प्रदर्शन करने वाले मॉडल, एंथ्रोपिक के क्लाउड 3.5 Sonnet, ने केवल पूर्ण SWE-Lancer बेंचमार्क पर 40.3% स्कोर किया, जो दिखाता है कि AI अभी भी एक लंबा रास्ता तय करने के लिए है। उन्होंने चीन से Openai के O3-Mini या DeepSeek के R1 जैसे नए मॉडल का परीक्षण नहीं किया।
सप्ताह का मॉडल
स्टेपफुन नामक एक चीनी एआई कंपनी ने स्टेप-ऑडियो नाम का एक "ओपन" एआई मॉडल जारी किया जो चीनी, अंग्रेजी और जापानी में भाषण को समझ और उत्पन्न कर सकता है। उपयोगकर्ता भी गायन सहित सिंथेटिक ऑडियो की भावना और बोली को मोड़ सकते हैं।
स्टेपफुन कई अच्छी तरह से वित्त पोषित चीनी एआई स्टार्टअप्स में से एक है जो अनुमेय लाइसेंस के साथ मॉडल जारी करता है। 2023 में स्थापित, उन्होंने हाल ही में निवेशकों से सैकड़ों करोड़ों मूल्य के एक फंडिंग दौर को बंद कर दिया, जिसमें चीनी राज्य के स्वामित्व वाली निजी इक्विटी फर्म शामिल हैं।
हड़पने वाला बैग
उनका मॉडल, डीपहर्मेस -3 पूर्वावलोकन, सटीकता और कम्प्यूटेशनल पावर को संतुलित करने के लिए लघु और लंबी "चेन ऑफ थॉट" के बीच स्विच कर सकता है। "रीज़निंग" मोड में, कठिन समस्याओं को हल करने में अधिक समय लगता है और रास्ते में इसकी विचार प्रक्रिया को दिखाता है।
एंथ्रोपिक कथित तौर पर जल्द ही एक समान मॉडल को जारी करने की योजना बना रहा है, और ओपनईई का कहना है कि यह उनके निकट अवधि के रोडमैप पर है।




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












