L'aprenentatge contrastiu és una tècnica que s'utilitza en l'aprenentatge autosupervisat per crear representacions significatives a partir de dades sense etiqueta aprofitant el concepte de similituds i diferències entre diferents punts de vista de les mateixes dades.
Concepte fonamental
-
Parells positius i negatius
-
Parells positius: són parells de versions augmentades de la mateixa instància de dades. Per exemple, agafar la mateixa imatge i aplicar diferents transformacions (com ara rotacions, retalls, fluctuacions de color, etc.) per crear vistes diferents del mateix contingut.
-
Parells negatius: consisteixen en instàncies de dades diferents. En el context de l'aprenentatge contrastiu, sovint es creen parelles negatives prenent diferents imatges o diferents versions augmentades d'imatges.
-
Objectiu: l'objectiu de l'aprenentatge contrastiu és animar el model a acostar les representacions de parelles positives en l'espai de característiques apresos, alhora que allunya les representacions de parelles negatives.
-
Funció de pèrdua: s'utilitzen habitualment funcions de pèrdua de contrast, com ara la pèrdua InfoNCE (Noise Contrastive Estimation) o la pèrdua NT-Xent (Normalized Temperature-Scaled Cross-Entropy). Aquestes pèrdues penalitzen el model quan la distància entre representacions de parells positius és molt llunyana i fomenten una distància més gran entre representacions de parells negatius.
Components d'aprofitament
-
Mesures de similitud
-
L'aprenentatge contrastiu es basa en mesures de similitud com la similitud del cosinus, la distància euclidiana o el producte puntual per quantificar la proximitat o la distància entre representacions a l'espai après.
-
Estratègies d'augment
-
L'augment de dades té un paper crucial en l'aprenentatge contrastiu en crear diferents vistes de les mateixes dades, permetent que el model aprengui característiques invariants en diferents transformacions.
-
Mida del lot
-
Les mides de lots més grans solen ser beneficioses en l'aprenentatge contrastiu, ja que proporcionen mostres més diverses per a cada pas d'optimització, ajudant a un millor aprenentatge de les representacions.
Impacte i aplicacions
-
Visió per ordinador: l'aprenentatge contrastiu ha estat molt eficaç en l'aprenentatge de representacions per a tasques basades en imatges, com ara la classificació d'imatges, la detecció d'objectes i la segmentació.
-
Processament del llenguatge natural: s'ha mostrat prometedor en l'aprenentatge de les incrustacions de frases o documents, millorant tasques com la comprensió del llenguatge i la traducció.
-
Sistemes de recomanació: mitjançant l'aprenentatge de representacions significatives de les preferències de l'usuari o de les característiques dels elements, pot millorar els algorismes de recomanació.
Eficàcia i reptes
-
Efectivitat: l'aprenentatge contrastiu ha demostrat resultats impressionants, especialment en escenaris on les dades etiquetades són escasses o costoses d'obtenir.
-
Reptes: ajustar els hiperparàmetres, seleccionar estratègies d'augment adequades i gestionar els recursos computacionals de manera eficient són reptes en l'aprenentatge contrastiu.
Les implementacions pràctiques solen incloure arquitectures personalitzades com xarxes siameses, Momentum Contrast (MoCo), SimCLR (Marc senzill per a l'aprenentatge contrastiu de representacions visuals) o altres variants per aprendre de manera eficaç representacions de dades sense etiquetar en diversos dominis.