Transformateurs de vision (ViT) et leur impact croissant sur la vision par ordinateur

Pendant des années, les réseaux de neurones convolutifs (CNN) ont été le choix par défaut pour la vision par ordinateur. Ils ont permis des avancées majeures dans la classification d'images, la détection d'objets et la segmentation. Mais avec l'évolution du domaine de l'apprentissage profond, une nouvelle architecture transforme le paysage : les transformateurs de vision (ViT). Empruntés au traitement automatique du langage naturel (TALN), les transformateurs s'appuient sur des mécanismes d'attention plutôt que sur des convolutions. […]