Moderne dybe neurale netværk (DNN'er) er i sig selv uigennemsigtige, hvilket gør det udfordrende at forstå deres beslutningsprocesser. Denne mangel på gennemsigtighed forstyrrer den omfattende implementering af Machine Learning-teknikker i en række forskellige domæner. Som svar er Explainable AI (XAI) dukket op med det formål at forbedre menneskelig forståelse af DNN-domme. Ved at se på det funktionelle formål med hver komponent, fokuserer XAI nu også på at forstå den globale adfærd af DNN'er, i modsætning til lokale forklaringsmetoder, der anvender saliency-kort til at forklare individuelle forudsigelser.
Mekanistisk fortolkning er en global forklaringsteknik, der fokuserer på at udpege de særlige ideer, som neuroner, de grundlæggende computerenheder i et neuralt netværk, har erhvervet evnen til at forstå. Vi kan forklare driften af et netværks latente repræsentationer ved at mærke neuroner med beskrivelser, der er forståelige for mennesker. Disse beskrivelser er gået fra simple etiketter til uddybende, kompositoriske og åbne ordforrådsforklaringer. Ikke desto mindre har manglen på standardiserede kvantitative målinger til vurdering af disse åbne ordforrådsbeskrivelser hindret grundige sammenligninger på tværs af forskellige tilgange.
For at løse dette hul introducerer forskere fra ATB Potsdam, University of Potsdam, TU Berlin, Fraunhofer Heinrich-Hertz-Institute og BIFOLD CoSy, en banebrydende kvantitativ evalueringsramme for vurdere brugen af åbne ordforrådsforklaringer i computervision (CV) modeller. Denne innovative metode gør brug af udviklingen i Generativ AI til at producere kunstige billeder, der korrelerer med konceptbaserede tekstbeskrivelser. cozy eliminerer behovet for menneskelig interaktion ved at lette kvantitative sammenligninger af forskellige konceptbaserede tekstforklaringstilgange ved at syntetisere datapunkter, der er fælles for bestemte målforklaringer.
Forskerholdet påviste gennem en omfattende metaanalyse, at hyggeligt tilbyder pålidelige evalueringer af forklaringer. Undersøgelsen opdagede, at konceptbaserede tekstforklaringsmetoder fungerer bedst i de øvre lag af neurale netværk, hvor begreber på højt niveau læres. Højkvalitets neuronforklaringer produceres ved metoder som INVERT, der skaber visuals fra neurale netværksrepræsentationer, og CLIP-Dissect, som undersøger interne netværksrepræsentationer. Omvendt producerer teknikker som MILAN og FALCON forklaringer af ringere kvalitet, og giver lejlighedsvis næsten tilfældige begreber, som kan resultere i unøjagtige netværkskonklusioner.
En stor ulempe ved CoSy, som forskerne erkender, er, at specifikke kategorier fra træningsdataene måske ikke er blevet inkluderet i den generative model, hvilket fører til forklaringer, der er for generelle eller tvetydige, såsom "hvide objekter." Generativ nøjagtighed kan øges ved at løse dette problem ved at undersøge datasæt før træning og modelydelse. Alligevel udviser hyggeligt meget potentiale inden for det stadig udviklende område med vurdering af ikke-lokale forklaringsteknikker.
Når vi ser fremad, er teamet håbefulde omkring CoSys potentielle applikationer på tværs af flere felter. For at vurdere plausibiliteten eller kvaliteten af en forklaring vedrørende resultatet af en nedstrømsopgave, skal menneskelig dømmekraft indgå i definitionen af forklaringskvalitet, som de ønsker at behandle i det fremtidige arbejde. Derudover ønsker de at inkludere yderligere områder som naturlig sprogbehandling og sundhedspleje i deres evalueringssystem. Den potentielle brug af cozy til vurdering af store, uigennemsigtige, autotolkbare sprogmodeller (LLM'er) er særligt spændende. Ifølge forskerne kan det være et stort skridt fremad at anvende cozy til sundhedsdatasæt, hvor forklaringskvalitet er vigtig. Disse potentielle fremtidige anvendelser af hyggeligt har et enormt potentiale til at fremme AI-forskning.