Les réseaux de neurones profonds (DNN) modernes sont intrinsèquement opaques, ce qui rend difficile la compréhension de leurs processus décisionnels. Ce manque de transparence interfère avec la mise en œuvre étendue des techniques d’apprentissage automatique dans divers domaines. En réponse, l'IA explicable (XAI) a fait surface dans le but d'améliorer la compréhension humaine des jugements DNN. En examinant l'objectif fonctionnel de chaque composant, XAI se concentre désormais également sur la compréhension du comportement global des DNN, contrairement aux méthodes d'explication locales qui utilisent des cartes de saillance pour expliquer les prédictions individuelles.
L'interprétabilité mécaniste est une technique d'explicabilité globale qui vise à identifier les idées particulières que les neurones, les unités informatiques fondamentales d'un réseau neuronal, ont acquis la capacité de comprendre. Nous pouvons expliquer le fonctionnement des représentations latentes d'un réseau en étiquetant les neurones avec des descriptions compréhensibles pour les humains. Ces descriptions sont passées de simples étiquettes à des explications élaborées, compositionnelles et à vocabulaire ouvert. Néanmoins, le manque de mesures quantitatives standardisées pour évaluer ces descriptions à vocabulaire ouvert a empêché des comparaisons approfondies entre diverses approches.
Pour combler cette lacune, des chercheurs de l'ATB Potsdam, de l'Université de Potsdam, de la TU Berlin, du Fraunhofer Heinrich-Hertz-Institute et de BIFOLD présentent CoSy, un cadre d'évaluation quantitative pionnier pour évaluer l'utilisation d'explications à vocabulaire ouvert dans les modèles de vision par ordinateur (CV). Cette méthode innovante utilise les développements de l’IA générative pour produire des images artificielles en corrélation avec des descriptions textuelles basées sur des concepts. Cozy élimine le besoin d'interaction humaine en facilitant les comparaisons quantitatives de différentes approches d'explication textuelle basées sur des concepts en synthétisant des points de données communs pour des explications cibles particulières.
L’équipe de recherche a démontré, grâce à une méta-analyse approfondie, qu’elle propose des évaluations fiables des explications. L’étude a découvert que les méthodes d’explication textuelle basées sur les concepts fonctionnent mieux dans les couches supérieures des réseaux neuronaux, où les concepts de haut niveau sont appris. Des explications neuronales de haute qualité sont produites par des méthodes telles que INVERT, qui crée des visuels à partir de représentations de réseaux neuronaux, et CLIP-Dissect, qui examine les représentations de réseaux internes. À l’inverse, des techniques telles que MILAN et FALCON produisent des explications de qualité inférieure, fournissant parfois des concepts presque aléatoires, ce qui peut aboutir à des conclusions de réseau inexactes.
Un inconvénient majeur de CoSy, comme le reconnaissent les chercheurs, est que des catégories spécifiques issues des données d'entraînement pourraient ne pas avoir été incluses dans le modèle génératif, conduisant à des explications trop générales ou ambiguës, telles que « objets blancs ». La précision générative pourrait être augmentée en résolvant ce problème en examinant les ensembles de données de pré-formation et les performances du modèle. Pourtant, Cozy présente un grand potentiel dans le domaine encore en développement de l’évaluation des techniques d’explication non locales.
Pour l’avenir, l’équipe a bon espoir quant aux applications potentielles de CoSy dans plusieurs domaines. Pour évaluer la plausibilité ou la qualité d'une explication concernant le résultat d'une tâche en aval, le jugement humain doit être inclus dans la définition de la qualité de l'explication, qu'ils souhaitent aborder dans les travaux futurs. De plus, ils souhaitent inclure des domaines supplémentaires tels que le traitement du langage naturel et les soins de santé dans leur système d'évaluation. L’utilisation potentielle de cosy pour évaluer des modèles de langage (LLM) volumineux, opaques et autointerprétables est particulièrement intéressante. Selon les chercheurs, appliquer le confort aux ensembles de données sur les soins de santé, où la qualité des explications est importante, pourrait constituer un grand pas en avant. Ces futures applications potentielles du cosy ont un énorme potentiel pour faire progresser la recherche sur l’IA.