Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models.

AllBooks Images Videos Maps News Shopping

Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient ...

Feb 29, 2024 · Adam has been shown to outperform gradient descent on large language models by a larger margin than on other tasks, but it is unclear why.

Why Adam Outperforms Gradient Descent on Language Models

openreview.net › forum

Dec 13, 2023 · We provide experimental evidence that gradient descent struggles to fit classification problems with heavy-tailed imbalanced classes.

Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient...

Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate ...

FAdam: Adam is a natural gradient optimizer using diagonal empirical ...

Improving Adaptive Moment Optimization via Preconditioner...

More results from openreview.net

[PDF] Why Adam Outperforms Gradient Descent on Language Models

opt-ml.org › papers › paper41

We show that the heavy-tailed class imbalance found in language modeling tasks leads to difficul- ties in optimization dynamics. When training with gradient ...

Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient ...

arxiv.org › html

Feb 29, 2024 · Adam has been shown to outperform gradient descent in optimizing large language transformers empirically, and by a larger margin than on other tasks.

[PDF] Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient ...

openreview.net › attachment

Feb 29, 2024 · Adam has been shown to outperform gradient de- scent in optimizing large language transformers empirically, and by a larger margin than on ...

Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient ...

arxiv-sanity-lite.com › ...

Adam has been shown to outperform gradient descent on large language models by a larger margin than on other tasks, but it is unclear why. We show that a key ...

Why Adam Outperforms Gradient Descent on Language Models: A ...

neurips.cc › virtual

Adam outperforms gradient descent on language models: A heavy-tailed class imbalance problem. Robin Yadav, Frederik Kunstner, Mark Schmidt, Alberto Bietti.

fKunstner/class-imbalance-sgd-adam - GitHub

github.com › fKunstner › class-imbalanc...

This repository contains the code for the paper Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models.

Stat.ML Papers on X: "Heavy-Tailed Class Imbalance and Why Adam ...

twitter.com › StatMLPapers › status

Jul 15, 2024 · Adam has been shown to outperform gradient descent on large language models by a larger margin than on other tasks, but it is unclear why. We ...

Elan Rosenfeld (@ElanRosenfeld) / X

x.com › elanrosenfeld

Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models. from x.com

Adam has been shown to outperform gradient descent on large language models by a larger margin than on other tasks, but it is unclear why. We show that a key ...