Vous avez calculé la réponse à un problème à l’examen écrit au secondaire ou au secondaire. Même si la réponse est correcte, les enseignants comptent généralement votre réponse invalide et vous donnent 0 points de cette question. C’était exactement ce qui est arrivé à l’intelligence artificielle …
Résoudre Sudoku sur le métro ou la pause-café peut sembler être un divertissement insignifiant, mais pour l’intelligence artificielle, c’est bien plus qu’un simple jeu. Un groupe de chercheurs a utilisé ce puzzle numérique non seulement pour mesurer la capacité logique des modèles de langage les plus avancés, mais aussi pour tester quelque chose de beaucoup plus important: ce qu’ils font et pourquoi ils font leurs capacités.
Une équipe de scientifiques de l’Université du Colorado Boulder a utilisé plus de 2 000 puzzles Sudoku pour évaluer différents systèmes d’intelligence artificielle dans une étude récente. Le résultat qu’ils ont trouvé était surprenant: certains modèles ont pu compléter correctement le puzzle, mais presque aucun d’entre eux ne pouvait expliquer clairement les étapes qu’ils ont prises pour atteindre une solution. Cette différence entre faire et expliquer, en particulier lorsqu’elle est utilisée dans des tâches sensibles telles que le diagnostic médical, les conseils financiers ou la prise de décision juridique, soulève un problème critique dans le développement d’outils fiables basés sur l’intelligence artificielle.
Sudoku pour apprendre la logique de la machine
Les puzzles Sudoku sélectionnés pour cette expérience n’étaient pas classiques de neuf à neuf carrés, mais une version plus simple à six-Six. Cette version maintient une certaine complexité logique sans nécessiter de compétences mathématiques avancées. Selon l’article d’origine, «Sudoku fournit un environnement contrôlé pour examiner les capacités des modèles de langage en résolution de problèmes étape par étape.»
Les chercheurs ont conçu un ensemble de 2 mille 293 puzzles sudoku à différents niveaux de difficulté, ce qui fait que chacun d’eux a une solution unique et bien définie. Ces puzzles ont été créés à l’aide d’un système logique officiel appelé Z3, qui garantit chaque puzzle et ne permet pas de réponse valide multiple.
Cette conception attentive a permis de clairement isolé les erreurs d’intelligence artificielle. Si le modèle faisait une erreur, il était clair qu’il n’y avait pas plus d’une solution et qu’il n’y avait pas de place pour l’interprétation. Cela a présenté une mesure claire de la façon dont le système comprend les règles de jeu.
Ils font ça … mais ils ne peuvent pas expliquer comment ils font
Parmi tous les modèles testés, le modèle «O1-Preview», une version avancée d’OpenAI en 2023, a pu résoudre correctement environ 65% des puzzles de Sudoku. D’un autre côté, des modèles ouverts-source tels que LLAMA et Mistral ont à peine pu atteindre des chiffres symboliques avec un taux de réussite bien inférieur à 1%. Cependant, même le modèle le plus précis n’a pas justifié ses réponses.
Lorsqu’on lui a demandé d’expliquer ses solutions, la performance de l’intelligence artificielle a diminué. Seulement 5% des déclarations fournies par O1-Preview ont été justifiées par les évaluateurs humains. En termes de clarté, seulement 7,5% ont reçu des points positifs et la valeur éducative des réponses était encore plus faible: seulement 2,5% se sont révélés utiles pour en savoir plus sur les stratégies de solution.
Les auteurs de l’étude résument cela dans une expression claire: «Bien que ces outils présentent un potentiel (…), ils sont toujours confrontés à des défis importants pour présenter leurs étapes de raisonnement de manière loyale et compréhensible.» Cet écart entre les résultats et le raisonnement révèle l’une des principales limites des modèles de langage existants: ils peuvent imiter les bonnes solutions, mais elles ne peuvent pas expliquer comment elles les atteignent.
La différence entre être juste et raisonnement
L’un des aspects les plus intéressants de cette étude est qu’il se concentre sur des compétences cohérentes de développement narratif sur leurs processus, et non si l’intelligence artificielle donne la bonne réponse. L’objectif n’était pas seulement de voir s’ils pouvaient mettre le nombre dans la boîte, mais pour comprendre pourquoi ils ont choisi ce nombre en fonction des inférences et des règles.
Cela met l’accent sur la différence entre un résultat correct obtenu par hasard, par hasard ou l’imitation et un processus de pensée logique. Selon les mots de l’article scientifique: «Un bon raisonnement devrait être en mesure d’expliquer clairement les processus déductifs.» C’était exactement ce qui manquait.
Une intelligence artificielle qui propose une solution valide mais ne peut pas expliquer qu’elle n’est pas fiable dans des contextes critiques. Dans des domaines tels que la santé, le droit ou la comptabilité, il ne suffit pas qu’une machine donne une bonne réponse. Il doit être capable de faire ses preuves aux gens idéalement d’une manière claire, cohérente et compréhensible.
Une expérience méticuleuse et explicative
L’équipe d’évaluation ne s’est pas limitée aux observations subjectives. Ils ont appliqué à un panel d’experts qui a analysé les réponses à l’intelligence artificielle en trois dimensions: justification, ouverture et valeur éducative. Pour ce faire, ils ont appliqué un système de type Likert (oui, peut-être, non) au puzzle Sudoku sélectionné à différentes difficultés.
L’analyse de l’harmonie inter-évaluante était assez bonne; Pour la justification et la valeur éducative, une valeur de 0,6 CAPPA a été obtenue pour plus de clarté. Cela a confirmé que les lacunes observées sont systématiques, pas anecdotiques. Même l’intelligence artificielle la plus avancée a réussi à résoudre des puzzles complexes, mais ses explications ne pouvaient pas passer le filtre humain, et dans la plupart des cas, il était déroutant, mal ou complètement diffusé.
En fait, ainsi que dans les informations en détail qui ont discuté de l’œuvre, il y a également eu des réactions selon lesquelles l’intelligence artificielle a confondu les concepts, mis en avant des règles non existantes et a même répondu à l’utilisation de certaines parties des prévisions météorologiques alors qu’il ne savait même pas quoi dire. Ces écarts indiquent que dans les cas où il n’y a pas de logique claire, les lacunes des modèles sont apparemment cohérentes, mais elles peuvent remplir tout contenu qui n’est pas lié à la tâche d’origine.
Décisions importantes de Sudoku
Bien que cela puisse ressembler à une anecdote, le travail ne concerne pas seulement les jeux. Selon les auteurs, la résolution de puzzles de Sudoku sert de petite représentation à l’échelle des problèmes de vie réelle complexes. Les règles nettes nécessitent un raisonnement et une prise de décision consciente pas à pas. C’est la même chose que prévu de l’intelligence artificielle qui gère les impôts, analyse les dossiers médicaux ou donne des conseils juridiques.
Le fait qu’il ne puisse toujours pas expliquer clairement comment ils ont atteint les réponses des modèles apportent des questions sur leurs rôles dans des tâches plus sensibles. Par conséquent, l’intérêt pour les systèmes «neurosemboliques» qui combinent le langage naturel des programmes de maître de droit (LL.M.) avec des structures logiques formelles augmente.
Selon l’étude, ces approches hybrides peuvent bénéficier des meilleurs aspects des deux mondes: la capacité de produire des réponses compréhensibles et la méticule formelle des systèmes logiques traditionnels. Comme l’écrivain l’a expliqué, «nous espérons que ces explications pourront interpréter ces explications avec des niveaux de détail appropriés et appropriés pour les utilisateurs non-experts».
Alors, que se passera-t-il maintenant?
La recherche montre clairement que les modèles existants sont encore loin de structurer en termes de raisonnement structuré. Bien que les systèmes enregistrés tels que O1-Preview fonctionnent mieux que les modèles ouverts, aucun d’entre eux ne peut atteindre le niveau de fiabilité descriptif requis pour les applications élevées.
Les écrivains proposent d’intégrer des modèles de langage avec des outils formels tels que les solvants SMT ou les preuves mathématiques pour progresser sur ce chemin. Bien que ces outils ne soient pas beaucoup conviviaux pour un lecteur moyen, il permet un raisonnement extrêmement sensible. Si les modèles existants peuvent combler l’écart entre cette logique complexe et cette langue naturelle, ils peuvent devenir des outils réels pour les processus de prise de décision humaine.
En attendant, ce que nous apprenons des puzzles de Sudoku est un précieux avertissement: la bonne réponse qui n’est pas soutenue par une bonne explication ne suffit pas. À ce stade, il y a beaucoup de choses que l’intelligence artificielle peut encore s’améliorer.
Lien de la recherche pertinente: «Expliquez des solutions de puzzle en langage naturel:
6 × 6 est une étude de découverte sur Sudoku «