En poursuivant votre navigation sur ce site, vous acceptez l'utilisation d'un simple cookie d'identification. Aucune autre exploitation n'est faite de ce cookie. OK
1

Attention layers provably solve single-location regression

Sélection Signaler une erreur
Multi angle
Auteurs : Boyer, Claire (Auteur de la Conférence)
CIRM (Editeur )

Loading the player...

Résumé : Attention-based models, such as Transformer, excel across various tasks but lack a comprehensive theoretical understanding, especially regarding token-wise sparsity and internal linear representations. To address this gap, we introduce the single-location regression task, where only one token in a sequence determines the output, and its position is a latent random variable, retrievable via a linear projection of the input. To solve this task, we propose a dedicated predictor, which turns out to be a simplified version of a non-linear self-attention layer. We study its theoretical properties, by showing its asymptotic Bayes optimality and analyzing its training dynamics. In particular, despite the non-convex nature of the problem, the predictor effectively learns the underlying structure. This work highlights the capacity of attention mechanisms to handle sparse token information and internal linear structures.

Keywords : attention layer; single location regression; transformer

Codes MSC :

    Informations sur la Vidéo

    Réalisateur : Hennenfent, Guillaume
    Langue : Anglais
    Date de publication : 14/01/2025
    Date de captation : 19/12/2024
    Sous collection : Research School
    arXiv category : Machine Learning
    Domaine : Mathematics in Science & Technology
    Format : MP4 (.mp4) - HD
    Durée : 00:45:28
    Audience : Researchers ; Graduate Students ; Doctoral Students, Post-Doctoral Students
    Download : https://videos.cirm-math.fr/2024-12-19_Boyer.mp4

Informations sur la Rencontre

Nom de la rencontre : New challenges in high-dimensional statistics / Statistique mathématique
Organisateurs de la rencontre : Klopp, Olga ; Pouet, Christophe ; Rakhlin, Alexander
Dates : 16/12/2024 - 20/12/2024
Année de la rencontre : 2024
URL Congrès : https://conferences.cirm-math.fr/3055.html

Données de citation

DOI : 10.24350/CIRM.V.20279403
Citer cette vidéo: Boyer, Claire (2024). Attention layers provably solve single-location regression. CIRM. Audiovisual resource. doi:10.24350/CIRM.V.20279403
URI : http://dx.doi.org/10.24350/CIRM.V.20279403

Voir aussi

Bibliographie



Imagette Video

Sélection Signaler une erreur