As redes neuronais profundas (DNN) modernas son intrínsecamente opacas, polo que é difícil comprender os seus procesos de toma de decisións. Esta falta de transparencia interfire coa ampla implementación de técnicas de Machine Learning en diversos dominios. En resposta, apareceu Explainable AI (XAI) coa intención de mellorar a comprensión humana dos xuízos de DNN. Ao analizar o propósito funcional de cada compoñente, XAI agora tamén se centra en comprender o comportamento global dos DNN, en contraste cos métodos de explicación locais que empregan mapas de relevancia para explicar as predicións individuais.
A interpretabilidade mecanicista é unha técnica de explicabilidade global que se centra en identificar as ideas particulares que as neuronas, as unidades informáticas fundamentais dunha rede neuronal, adquiriron a capacidade de comprender. Podemos explicar o funcionamento das representacións latentes dunha rede etiquetando as neuronas con descricións que sexan comprensibles para os humanos. Estas descricións pasaron de simples etiquetas a explicacións elaboradas, compositivas e de vocabulario aberto. Non obstante, a falta de métricas cuantitativas estandarizadas para avaliar estas descricións de vocabulario aberto dificultou as comparacións exhaustivas entre varios enfoques.
Para abordar esta brecha, investigadores de ATB Potsdam, Universidade de Potsdam, TU Berlín, Fraunhofer Heinrich-Hertz-Institute e BIFOLD presentan CoSy, un marco de avaliación cuantitativo pioneiro para avaliar o uso de explicacións de vocabulario aberto en modelos de visión por ordenador (CV). Este método innovador fai uso dos desenvolvementos na IA xerativa para producir imaxes artificiais que se correlacionan con descricións textuais baseadas en conceptos. Cozy elimina a necesidade de interacción humana facilitando as comparacións cuantitativas de diferentes enfoques de explicación textuais baseados en conceptos mediante a síntese de puntos de datos comúns para explicacións específicas.
O equipo de investigación demostrou a través dunha ampla metaanálise que cozy ofrece avaliacións fiables das explicacións. O estudo descubriu que os métodos de explicación textuais baseados en conceptos funcionan mellor nas capas superiores das redes neuronais, onde se aprenden conceptos de alto nivel. As explicacións de neuronas de alta calidade prodúcense mediante métodos como INVERT, que crea imaxes a partir de representacións de redes neuronais, e CLIP-Dissect, que examina as representacións de redes internas. Pola contra, técnicas como MILAN e FALCON producen explicacións de calidade inferior, proporcionando ocasionalmente conceptos case aleatorios, o que pode dar lugar a conclusións de rede inexactas.
Un gran inconveniente de CoSy, como recoñecen os investigadores, é que categorías específicas dos datos de adestramento poderían non estar incluídas no modelo xerativo, o que leva a explicacións demasiado xerais ou ambiguas, como "obxectos brancos". Pódese aumentar a precisión xerativa abordando este problema examinando os conxuntos de datos previos ao adestramento e o rendemento do modelo. Aínda así, cozy presenta moito potencial no campo aínda en desenvolvemento da avaliación de técnicas de explicación non locais.
De cara ao futuro, o equipo ten esperanzas sobre as posibles aplicacións de CoSy en varios campos. Para avaliar a plausibilidade ou a calidade dunha explicación sobre o resultado dunha tarefa posterior, o xuízo humano debe incluírse na definición de calidade da explicación, que queren abordar en traballos futuros. Ademais, queren incluír campos adicionais como o procesamento da linguaxe natural e a asistencia sanitaria no seu sistema de avaliación. O uso potencial de cozy para avaliar modelos de linguaxe autointerpretables (LLM) grandes, opacos é especialmente emocionante. Segundo os investigadores, aplicar cozy aos conxuntos de datos sanitarios, onde a calidade das explicacións é importante, podería ser un gran paso adiante. Estas aplicacións futuras potenciais de cozy teñen un enorme potencial para avanzar na investigación da IA.