GPT-5 d'OpenAI rivalise avec les performances humaines dans diverses professions
Jeudi, OpenAI a dévoilé GDPval, un référentiel révolutionnaire évaluant comment ses modèles d'IA se comparent aux professionnels humains dans divers secteurs d'activité. Cette évaluation constitue une première étape vers la détermination de si les systèmes d'OpenAI peuvent surpasser les humains dans un travail à impact économique – un objectif central dans la quête de l'intelligence artificielle générale (IAG) par l'entreprise.
Selon OpenAI, tant GPT-5 que Claude Opus 4.1 d'Anthropic démontrent une qualité de production approchant celle des spécialistes de l'industrie.
Bien que ces résultats n'impliquent pas un remplacement imminent des emplois humains, ils représentent un suivi de progrès crucial. OpenAI reconnaît que GDPval n'évalue actuellement qu'une fraction des tâches professionnelles réelles, contredisant les prédictions de certains PDG concernant une perturbation massive de l'IA dans les années à venir.
GDPval évalue la performance dans neuf secteurs clés du PIB américain – incluant la santé, la finance, la manufacturing et le gouvernement – testant 44 professions allant du génie logiciel au journalisme.
Pour GDPval-v0, des professionnels ont comparé des rapports générés par l'IA au travail de leurs homologues humains. Une tâche exemple impliquait des banquiers d'investissement analysant les paysages concurrentiels de la livraison du dernier kilomètre contre les versions de l'IA. OpenAI a calculé le "taux de victoire" de chaque modèle par rapport aux productions humaines sur toutes les professions.
Le modèle amélioré GPT-5-high a égalé ou dépassé la production experte 40,6 % du temps, tandis que Claude Opus 4.1 a atteint un taux de parité de 49 % – OpenAI suggère que ce score plus élevé pourrait refléter la présentation visuelle supérieure de Claude plutôt qu'un avantage substantiel.
Connectez-vous avec 10 000+ innovateurs technologiques et de capital-risque à Disrupt 2025
Avec Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital et Elad Gil parmi 250+ leaders du secteur accueillant 200+ sessions axées sur la croissance. Célébrez le 20e anniversaire de TechCrunch tout en acquérant des insights concurrentiels auprès des penseurs les plus éminents de la technologie. Une inscription anticipée avant le 26 septembre permet d'économiser jusqu'à 668 $.
Connectez-vous avec 10 000+ innovateurs technologiques et de capital-risque à Disrupt 2025
Avec Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital et Elad Gil parmi 250+ leaders du secteur accueillant 200+ sessions axées sur la croissance. Célébrez le 20e anniversaire de TechCrunch tout en acquérant des insights concurrentiels auprès des penseurs les plus éminents de la technologie. Une inscription anticipée avant le 26 septembre permet d'économiser jusqu'à 668 $.

Crédits image : OpenAI OpenAI reconnaît la portée étroite de GDPval-v0 – testant actuellement uniquement la génération de rapports de recherche – et prévoit des itérations futures évaluant des interactions professionnelles plus larges.
Le Dr. Aaron Chatterji, Économiste en chef, a déclaré à TechCrunch que ces résultats indiquent que les professionnels peuvent de plus en plus déléguer des tâches routinières à l'IA, les libérant ainsi pour un travail à plus forte valeur ajoutée.
Tejal Patwardhan, responsable des évaluations, note des progrès rapides : GPT-4o n'a obtenu que 13,7 % il y a quinze mois, tandis que GPT-5 triple presque cette performance – une trajectoire qui devrait se poursuivre.
Alors que des référentiels comme AIME 2025 et GPQA Diamond dominent l'évaluation de l'IA, de nombreux modèles approchent de la saturation sur ces tests académiques. GDPval représente un accent croissant sur des normes d'évaluation pratiques et pertinentes pour l'industrie – bien qu'OpenAI nécessite des tests plus complets pour démontrer de manière concluante une performance de niveau humain dans tous les domaines professionnels.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (0)
Jeudi, OpenAI a dévoilé GDPval, un référentiel révolutionnaire évaluant comment ses modèles d'IA se comparent aux professionnels humains dans divers secteurs d'activité. Cette évaluation constitue une première étape vers la détermination de si les systèmes d'OpenAI peuvent surpasser les humains dans un travail à impact économique – un objectif central dans la quête de l'intelligence artificielle générale (IAG) par l'entreprise.
Selon OpenAI, tant GPT-5 que Claude Opus 4.1 d'Anthropic démontrent une qualité de production approchant celle des spécialistes de l'industrie.
Bien que ces résultats n'impliquent pas un remplacement imminent des emplois humains, ils représentent un suivi de progrès crucial. OpenAI reconnaît que GDPval n'évalue actuellement qu'une fraction des tâches professionnelles réelles, contredisant les prédictions de certains PDG concernant une perturbation massive de l'IA dans les années à venir.
GDPval évalue la performance dans neuf secteurs clés du PIB américain – incluant la santé, la finance, la manufacturing et le gouvernement – testant 44 professions allant du génie logiciel au journalisme.
Pour GDPval-v0, des professionnels ont comparé des rapports générés par l'IA au travail de leurs homologues humains. Une tâche exemple impliquait des banquiers d'investissement analysant les paysages concurrentiels de la livraison du dernier kilomètre contre les versions de l'IA. OpenAI a calculé le "taux de victoire" de chaque modèle par rapport aux productions humaines sur toutes les professions.
Le modèle amélioré GPT-5-high a égalé ou dépassé la production experte 40,6 % du temps, tandis que Claude Opus 4.1 a atteint un taux de parité de 49 % – OpenAI suggère que ce score plus élevé pourrait refléter la présentation visuelle supérieure de Claude plutôt qu'un avantage substantiel.
Connectez-vous avec 10 000+ innovateurs technologiques et de capital-risque à Disrupt 2025
Avec Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital et Elad Gil parmi 250+ leaders du secteur accueillant 200+ sessions axées sur la croissance. Célébrez le 20e anniversaire de TechCrunch tout en acquérant des insights concurrentiels auprès des penseurs les plus éminents de la technologie. Une inscription anticipée avant le 26 septembre permet d'économiser jusqu'à 668 $.
Connectez-vous avec 10 000+ innovateurs technologiques et de capital-risque à Disrupt 2025
Avec Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital et Elad Gil parmi 250+ leaders du secteur accueillant 200+ sessions axées sur la croissance. Célébrez le 20e anniversaire de TechCrunch tout en acquérant des insights concurrentiels auprès des penseurs les plus éminents de la technologie. Une inscription anticipée avant le 26 septembre permet d'économiser jusqu'à 668 $.

OpenAI reconnaît la portée étroite de GDPval-v0 – testant actuellement uniquement la génération de rapports de recherche – et prévoit des itérations futures évaluant des interactions professionnelles plus larges.
Le Dr. Aaron Chatterji, Économiste en chef, a déclaré à TechCrunch que ces résultats indiquent que les professionnels peuvent de plus en plus déléguer des tâches routinières à l'IA, les libérant ainsi pour un travail à plus forte valeur ajoutée.
Tejal Patwardhan, responsable des évaluations, note des progrès rapides : GPT-4o n'a obtenu que 13,7 % il y a quinze mois, tandis que GPT-5 triple presque cette performance – une trajectoire qui devrait se poursuivre.
Alors que des référentiels comme AIME 2025 et GPQA Diamond dominent l'évaluation de l'IA, de nombreux modèles approchent de la saturation sur ces tests académiques. GDPval représente un accent croissant sur des normes d'évaluation pratiques et pertinentes pour l'industrie – bien qu'OpenAI nécessite des tests plus complets pour démontrer de manière concluante une performance de niveau humain dans tous les domaines professionnels.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc





Maison






