@nenecchi_tech
ID: 987223200533643264
calendar_today20-04-2018 06:55:27
461 Tweet
183 Followers
192 Following
4 years ago
学習にGPU16台使ってましたは逆立ちしてもどうしようもないのよ
読む 作って理解する Transformer / Attention qiita.com/halhorn/items/… #Qiita HAL📯より
PytorchのLinear層,入力が3次元でも機能するの知らなかった 内部的には一番後ろの次元以外をbatchと見立てて処理してる感じか
softmax入力前に次元数で割るの,eの累乗だから次元数が多いとsumする分母が大きくなりすぎて,値が大きい要素はいいけど,小さい要素の勾配が小さくなるって理解でいいのかな
query, key, valueも別個にlinear層定義するより出力3倍にして1つにまとめてやったほうがほんのちょっとだけ早い
3 years ago
Lossが荒ぶられておられる
従来のAttentionを廃したAttention Free Transformer(AFT)という,卵抜きのオムライス的な感じの手法が爆誕した模様 Transformerとは一体・・・ "An Attention Free Transformer" arxiv.org/abs/2105.14103
「現時点で使える最強のオープンソース言語モデル」と言っても過言ではない GPT-3 のオープン版「GPT-J」が先日リリースされました。無料でこの性能、OpenAI APIに課金するかを考え直すレベルです。本記事では、関連モデル・技術に加え、GPT-J とその使い方を解説しました。ja.stateofaiguides.com/20210615-open-…
シーン認識に重要な役割持つ本質的な情報(最小セット)「シーンエッセンス」およびそれを学習するためのNNの提案。GNNをシーンオブジェクトを本質的なものとマイナーなものに分割するように学習し、マイナーなものをInpaitingによって消去することでシーン識別者を欺く。 openaccess.thecvf.com/content/CVPR20…
マスク生成ええ感じ
高速データセット作成 (裏でそれぞれRGBとMaskセットで画像保存してる)
物体の学習用合成データ出来てきた
Depthから主成分分析で法線求めるのやってみたが,結構思いの外いい感じに出た (なお計算時間はお察しの模様)