anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile
anonym(論文1000本ノックの人)

@shriver_light

#1年間1日1本論文 #111論文等共有 で機械学習,深層学習の論文メモ1000本達成(Apr 26, 2020-May 4, 2023). 💡キーワード検索は 「from:shriver_light 検索ワード」 で💡

ID: 1085879999192682501

calendar_today17-01-2019 12:42:21

3,3K Tweet

2,2K Followers

219 Following

anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile Photo

#111論文等共有(256/365) arxiv.org/abs/2205.10287 [arXiv'22] RMSpropとAdamの確率微分方程式(SDE)による連続近似を導出。1次弱近似であることを証明。バッチサイズに対する学習率のsquare root scaling ruleを導出。バッチサイズを変えても元と同じSDEの解に近いための十分条件として出る。 1/3

anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile Photo

#111論文等共有 1163 arxiv.org/abs/2309.16588 [arXiv’23] ViTで画像背景のトークンのうちノルムが大きくなる物を発見。中間あたりの層、10倍ほど大きい、全体の2%程度、大モデル長時間訓練で現れる。しかし分類に使うと何故か高精度=画像の大域情報を持つ。 1/2

#111論文等共有 1163 arxiv.org/abs/2309.16588
[arXiv’23] ViTで画像背景のトークンのうちノルムが大きくなる物を発見。中間あたりの層、10倍ほど大きい、全体の2%程度、大モデル長時間訓練で現れる。しかし分類に使うと何故か高精度=画像の大域情報を持つ。
1/2
anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile Photo

#111論文等共有 1496 anlp.jp/proceedings/an… [NLP’25] Vocabulary spaceと重みの row spaceとの擬似直交性を実験で調べた。モデルはBERTとGPT-2。Encoderモデルかdecoderモデルかの違いによって、層ごとの擬似直交性の違いが見えたのが面白い。

#111論文等共有 1496 anlp.jp/proceedings/an…
[NLP’25] Vocabulary spaceと重みの row spaceとの擬似直交性を実験で調べた。モデルはBERTとGPT-2。Encoderモデルかdecoderモデルかの違いによって、層ごとの擬似直交性の違いが見えたのが面白い。
anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile Photo

#111論文等共有 openreview.net/forum?id=DbxKZ… [NeurIPS'21] Random DNN で BatchNorm, LayerNorm, GroupNorm, InstanceNorm など数々の正規化層を比較。GNのグループ数を増やすと特徴量が区別不可になり、これはLNモデルの slow convergence

#111論文等共有 openreview.net/forum?id=DbxKZ…
[NeurIPS'21] Random DNN で BatchNorm, LayerNorm, GroupNorm, InstanceNorm など数々の正規化層を比較。GNのグループ数を増やすと特徴量が区別不可になり、これはLNモデルの slow convergence
anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile Photo

#111論文等共有 1552 openreview.net/forum?id=ZPQhz… [TMLR'22] AdamとAdagradのシンプルな収束証明を与えた論文。Smoothness と bounded gradient を仮定。Non-convexでもOK。勾配のsqured normが期待値の意味でO(d log(T)/ √T)で落ちる。

#111論文等共有 1552 openreview.net/forum?id=ZPQhz…
[TMLR'22] AdamとAdagradのシンプルな収束証明を与えた論文。Smoothness と bounded gradient を仮定。Non-convexでもOK。勾配のsqured normが期待値の意味でO(d log(T)/ √T)で落ちる。
anonym(論文1000本ノックの人) (@shriver_light) 's Twitter Profile Photo

#111論文等共有 1569 arxiv.org/abs/2510.21890 [arXiv ‘25] 拡散モデルの400ページくらいの新しい教科書。拡散モデルがどこから来たのかを、変分、score-based、flow-based、確率微分方程式から整理してある。早いサンプリングと生成方法も与えてある。

#111論文等共有 1569 arxiv.org/abs/2510.21890
[arXiv ‘25] 拡散モデルの400ページくらいの新しい教科書。拡散モデルがどこから来たのかを、変分、score-based、flow-based、確率微分方程式から整理してある。早いサンプリングと生成方法も与えてある。