A aprendizaxe contrastiva é unha técnica que se usa na aprendizaxe autosupervisada para crear representacións significativas a partir de datos sen etiquetar aproveitando o concepto de semellanzas e diferenzas entre diferentes puntos de vista dos mesmos datos.
Concepto fundamental
-
Pares positivos e negativos
-
Pares positivos: son pares de versións aumentadas da mesma instancia de datos. Por exemplo, tomando a mesma imaxe e aplicando diferentes transformacións (como rotacións, recortes, tremor de cores, etc.) para crear vistas diferentes do mesmo contido.
-
Pares negativos: consisten en diferentes instancias de datos. No contexto da aprendizaxe contrastiva, as parellas negativas adoitan crearse tomando diferentes imaxes ou diferentes versións aumentadas de imaxes.
-
Obxectivo: o obxectivo da aprendizaxe contrastiva é fomentar que o modelo achegue as representacións de pares positivos no espazo de características aprendidos, ao tempo que afasta as representacións de pares negativos.
-
Función de perda: as funcións de perda de contraste, como a perda de InfoNCE (estimación de contraste de ruído) ou a perda de NT-Xent (entropía cruzada a escala de temperatura normalizada), úsanse habitualmente. Estas perdas penalizan o modelo cando a distancia entre representacións de pares positivos é grande e fomentan unha maior distancia entre representacións de pares negativos.
Compoñentes de aproveitamento
-
Medidas de similitude
-
A aprendizaxe contrastiva baséase en medidas de semellanza como a semellanza coseno, a distancia euclidiana ou o produto puntual para cuantificar a proximidade ou a distancia entre representacións no espazo aprendido.
-
Estratexias de aumento
-
O aumento de datos xoga un papel crucial na aprendizaxe contrastiva ao crear vistas diversas dos mesmos datos, o que permite que o modelo aprenda características invariantes en diferentes transformacións.
-
Tamaño do lote
-
Os tamaños de lotes máis grandes adoitan ser beneficiosos na aprendizaxe contrastiva xa que proporcionan mostras máis diversas para cada paso de optimización, axudando a unha mellor aprendizaxe das representacións.
Impacto e aplicacións
-
Visión por ordenador: a aprendizaxe contrastiva foi moi eficaz na aprendizaxe de representacións para tarefas baseadas en imaxes, como a clasificación de imaxes, a detección de obxectos e a segmentación.
-
Procesamento da linguaxe natural: mostrouse prometedor na aprendizaxe de incrustacións de frases ou documentos, mellorando tarefas como a comprensión da linguaxe e a tradución.
-
Sistemas de recomendación: ao aprender representacións significativas das preferencias do usuario ou das características dos elementos, pode mellorar os algoritmos de recomendación.
Eficacia e retos
-
Eficacia: a aprendizaxe contrastiva demostrou resultados impresionantes, especialmente en escenarios nos que os datos etiquetados son escasos ou caros de obter.
-
Retos: axustar hiperparámetros, seleccionar estratexias de aumento axeitadas e xestionar os recursos computacionais de forma eficiente son retos na aprendizaxe contrastiva.
As implementacións prácticas adoitan implicar arquitecturas personalizadas como redes siamesas, Momentum Contrast (MoCo), SimCLR (Marco sinxelo para a aprendizaxe contrastiva de representacións visuais) ou outras variantes para aprender de forma eficaz representacións de datos sen etiquetas en varios dominios.