Toshinori Kitamura (@t_kitamura14) 's Twitter Profile
Toshinori Kitamura

@t_kitamura14

PhD / University of Tokyo / Reinforcement Learning Theory

ID: 1465928288119967748

linkhttps://syuntoku14.github.io/ calendar_today01-12-2021 06:18:45

57 Tweet

194 Followers

128 Following

Taiji Suzuki (@btreetaiji) 's Twitter Profile Photo

3月14日の理研AIP成果報告会に向けて作成した,今年度の弊研究室成果抜粋まとめです. - 勾配法によるニューラルネット学習の情報理論的最適性 - 文脈内学習の理論 を主たる結果として載せています. (他にも面白い結果は色々と出ていますが紙面のスペースの都合上割愛) aip.riken.jp/sympo/sympo202…

3月14日の理研AIP成果報告会に向けて作成した,今年度の弊研究室成果抜粋まとめです.
- 勾配法によるニューラルネット学習の情報理論的最適性
- 文脈内学習の理論
を主たる結果として載せています.
(他にも面白い結果は色々と出ていますが紙面のスペースの都合上割愛)
aip.riken.jp/sympo/sympo202…
Toshinori Kitamura (@t_kitamura14) 's Twitter Profile Photo

Our recent work "Provably Efficient RL under Episode-Wise Safety in Linear CMDPs" is now on Arxiv! We propose the first computationally efficient RL algorithm with √K regret and episode-wise safety guarantees in linear CMDPs. arxiv.org/abs/2502.10138

Masatoshi Uehara (@masa_uehara_1) 's Twitter Profile Photo

Test-Time Alignment for Complex Reward Functions? We introduce a test-time, reward-guided iterative refinement algorithm for diffusion models. masatoshiuehara.com/research/rerd

Taiji Suzuki (@btreetaiji) 's Twitter Profile Photo

直接学習することが難しい問題でも,Chain-of-thoughtを使えばTransformerで簡単に学習できるようになることを示した論文がICLR2025にオーラル発表として採択されました. Kim&Suzuki: Transformers Provably Solve Parity Efficiently with Chain of Thought. ICLR2025. openreview.net/forum?id=n2Nid…

Toshinori Kitamura (@t_kitamura14) 's Twitter Profile Photo

I’ve completed my Ph.D.! I’m deeply grateful to everyone who supported me along the way, from mentors and colleagues to friends and family. Thank you all!

I’ve completed my Ph.D.!

I’m deeply grateful to everyone who supported me along the way, from mentors and colleagues to friends and family. Thank you all!
Toshinori Kitamura (@t_kitamura14) 's Twitter Profile Photo

載せるの忘れてましたが、博論の内容は専攻長賞をいただきました🏆 みなさんありがとうございます🙇‍♂️

載せるの忘れてましたが、博論の内容は専攻長賞をいただきました🏆
みなさんありがとうございます🙇‍♂️
ばかなおうじ(あべけんし) (@bakanaouji) 's Twitter Profile Photo

ICLRに論文が採択されました! 去年のICMLで発表したミニマックス最適化問題などに適用できる均衡学習手法をさらに発展させた内容になっています シンガポールに現地参加される方よろしくお願いします! arxiv.org/abs/2410.02388

Dylan Foster 🐢 (@canondetortugas) 's Twitter Profile Photo

Reinforcement learning has led to amazing breakthroughs in reasoning (e.g., R1), but can it discover truly new behaviors not already present in the base model? New paper with Zak Mhammedi and Dhruv Rohatgi: The Computational Role of the Base Model in Exploration thread:

Reinforcement learning has led to amazing breakthroughs in reasoning (e.g., R1), but can it discover truly new behaviors not already present in the base model?  

New paper with Zak Mhammedi and Dhruv Rohatgi:  
The Computational Role of the Base Model in Exploration

thread:
部品(吉岡里帆) (@tjmlab) 's Twitter Profile Photo

しっかり学ぶ数理最適化 amzn.to/4iVy0Kk 今日だけ500円!!! これはマジ名著。 今なら1ページ1円以下!!! 買うしかない!!!

Tech OMRON / オムロン テクノロジー (@tech_omron) 's Twitter Profile Photo

オムロン サイニックエックスは、機械学習分野において国際的に権威のあるトップカンファレンス #ICLR2025 で最新の研究成果を発表します。 OMRON SINIC X will present research findings in ICLR2025. omron.com/sinicx/activit…

Tadashi Kozuno (@tdash_koz) 's Twitter Profile Photo

元インターンの北村さんが安全な強化学習の理論に関する論文を発表します。ICLRにご参加の皆さまは、ぜひポスターにいらしてください。

Toshinori Kitamura (@t_kitamura14) 's Twitter Profile Photo

今月のICLRにて、強化学習関連の研究を発表します! テーブルマルコフ決定過程において、ロバスト性と制約付き方策設計を同時に成立させる手法を実現しました。近似最適解への理論的な収束保証があります。 現地の方はぜひ来てください🙏

Toshinori Kitamura (@t_kitamura14) 's Twitter Profile Photo

明日からICLR2025参加のためシンガポールに行きます 現地参加する人は見に来てくれたら嬉しいです🙆‍♂️ iclr.cc/virtual/2025/p…

や (@syagishita917) 's Twitter Profile Photo

新しいプレプリントを公開しました 近接項を一般化した近接勾配法に対して勾配のリプシッツ連続性などを仮定しない収束解析をすることで、今まででは対象外だった様々な問題に対して効率的に近接勾配型アルゴリズムが適用可能になります Bregman近接勾配法よりも一般的な枠組みです

鴨井 遼 (@ryokamoi_ja) 's Twitter Profile Photo

Comprehensive examに合格してPhD Candidateになったので、PhD課程の前半2年間についてブログを書きました。 海外留学についての記録: アメリカCS博士課程 前半2年間の記録(PhD Candidateになりました) ryokamoi.blogspot.com/2025/05/cs-2ph…