Moderne dype nevrale nettverk (DNN) er i seg selv ugjennomsiktige, noe som gjør det utfordrende å forstå deres beslutningsprosesser. Denne mangelen på åpenhet forstyrrer den omfattende implementeringen av maskinlæringsteknikker i en rekke domener. Som svar har Explainable AI (XAI) dukket opp med hensikt å forbedre menneskelig forståelse av DNN-dommer. Ved å se på den funksjonelle hensikten til hver komponent, fokuserer XAI nå også på å forstå den globale oppførselen til DNN-er, i motsetning til lokale forklaringsmetoder som bruker fremtredende kart for å forklare individuelle spådommer.
Mekanistisk tolkning er en global forklaringsteknikk som fokuserer på å finne de spesielle ideene som nevroner, de grunnleggende dataenhetene i et nevralt nettverk, har tilegnet seg evnen til å forstå. Vi kan forklare virkemåten til et nettverks latente representasjoner ved å merke nevroner med beskrivelser som er forståelige for mennesker. Disse beskrivelsene har gått fra enkle etiketter til forseggjorte, komposisjonelle og åpne ordforrådsforklaringer. Likevel har mangelen på standardiserte kvantitative beregninger for å vurdere disse åpne vokabularbeskrivelsene hindret grundige sammenligninger på tvers av ulike tilnærminger.
For å løse dette gapet introduserer forskere fra ATB Potsdam, University of Potsdam, TU Berlin, Fraunhofer Heinrich-Hertz-Institute og BIFOLD CoSy, et banebrytende kvantitativt evalueringsrammeverk for vurdere bruken av åpne ordforrådsforklaringer i datasynsmodeller (CV). Denne innovative metoden bruker utviklingen innen Generativ AI for å produsere kunstige bilder som korrelerer med konseptbaserte tekstbeskrivelser. cozy eliminerer behovet for menneskelig interaksjon ved å legge til rette for kvantitative sammenligninger av ulike konseptbaserte tekstforklaringstilnærminger ved å syntetisere datapunkter som er felles for bestemte målforklaringer.
Forskerteamet demonstrerte gjennom en omfattende metaanalyse at koselige tilbyr pålitelige evalueringer av forklaringer. Studien oppdaget at konseptbaserte tekstforklaringsmetoder fungerer best i de øvre lagene av nevrale nettverk, hvor begreper på høyt nivå læres. Nevronforklaringer av høy kvalitet produseres ved metoder som INVERT, som lager visuelle bilder fra nevrale nettverksrepresentasjoner, og CLIP-Dissect, som undersøker interne nettverksrepresentasjoner. Omvendt produserer teknikker som MILAN og FALCON forklaringer av dårlig kvalitet, og gir av og til nesten tilfeldige konsepter, noe som kan resultere i unøyaktige nettverkskonklusjoner.
En stor ulempe med CoSy, som forskerne erkjenner, er at spesifikke kategorier fra treningsdataene kanskje ikke har blitt inkludert i den generative modellen, noe som fører til forklaringer som er for generelle eller tvetydige, for eksempel «hvite objekter». Generativ nøyaktighet kan økes ved å løse dette problemet ved å undersøke datasett før trening og modellytelse. Likevel har koselig mye potensial i det stadig utviklende feltet for vurdering av ikke-lokale forklaringsteknikker.
Når vi ser fremover, er teamet håpefullt om CoSys potensielle applikasjoner på tvers av flere felt. For å vurdere plausibiliteten eller kvaliteten på en forklaring som gjelder resultatet av en nedstrømsoppgave, må menneskelig dømmekraft inkluderes i definisjonen av forklaringskvalitet, som de ønsker å ta opp i fremtidig arbeid. I tillegg ønsker de å inkludere flere felt som naturlig språkbehandling og helsetjenester i evalueringssystemet. Den potensielle bruken av cozy for å vurdere store, ugjennomsiktige, autotolkbare språkmodeller (LLM) er spesielt spennende. Ifølge forskerne kan det være et stort skritt fremover å bruke koselig til helsedatasett, der forklaringskvalitet er viktig. Disse potensielle fremtidige bruksområdene for koselig har et enormt potensial for å fremme AI-forskning.