吉岡ひろき (@irohiroki) Twitter Tweets • TwiCopy

吉岡ひろき

@irohiroki

+ Follow

ソフトウェアエンジニア @ ドリコム👾🎮️ ベース初心者🎸MAN WITH A MISSION/THE BAWDIES/LiSA/King Gnu/Oasis/羊文学旧ハンドルネームは「いろ」

ID: 5003071

linkhttp://irohiroki.github.io calendar_today17-04-2007 14:33:30

5,5K Tweet

644 Takipçi

325 Takip Edilen

吉岡ひろき

@irohiroki

a year ago

VLM agentを強化学習するとき単純に行動を評価すると破綻することがあり、それを防ぐためreasoningを評価する。興味深い👀 GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training arxiv.org/abs/2503.08525

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

このKV-cacheの圧縮方法すごい 8倍圧縮でも劣化は5%程度、2.4倍だったらほぼ劣化しない(0.1%, Qwen2.5-14B) xKV: Cross-Layer SVD for KV-Cache Compression arxiv.org/abs/2503.18893

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

基盤モデルが更新されたらfine-tuningやりなおし？いいえ、前のバージョンのトレーニングを再利用できます😳 Efficient Model Development through Fine-tuning Transfer arxiv.org/abs/2503.20110

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

AIエージェントにツール使わせるのはいいけど、無駄に使ってない？という論文けっこう無駄に使ってた OTC: Optimal Tool Calls via Reinforcement Learning arxiv.org/abs/2504.14870

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

AIエージェントにおけるMCPサーバって、RailsにおけるGemみたいだね。これからネタMCPサーバとか超有名MCPサーバとか現れて、その作者がコミュニティリーダーになったりするのかな

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

あんスタがメンテしてると時間に余裕ができます

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

sparse attentionってどうなの？を調べてくれたみたいで助かる The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs arxiv.org/abs/2504.17768

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

吉岡ひろき

@irohiroki

a year ago

AIエージェントで作れるのは前提で、どのくらい計算コストを掛けずに実現できるかが重要 majority votingや self-refinementがそのコストを正当化できるのは稀 Cost-of-Pass: An Economic Framework for Evaluating Language Models arxiv.org/abs/2504.13359

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare