webbigdata (@webbigdata) Twitter Tweets • TwiCopy

webbigdata

5 months ago

Optimal Linear Decay Learning Rate Schedules and Further Refinements ちょっと前の文献ですが (少なくとも小サイズモデルでは)Linear Decayは、Cosine Decayを含む一般的に使用されるすべてのデフォルトスケジュールよりも優れているとの事ですうーむ、要検証ですね arxiv.org/abs/2310.07831

thumb_up_off_alt1

chat_bubble_outline0

repeat0

shareShare

webbigdata

@webbigdata

5 months ago

TensorRT LLMを動かしてみたいんですが、flash attentionのエラーがまだ解決できず、flash attentionなしだと3Bモデルが4060ti(16GB)でもメモリ不足になります claudeと一緒に作業してるんですが、代わりにvllmを試しみましょうとか、transformersが安定していてオススメです等、諦めるのが割と早い

thumb_up_off_alt8

chat_bubble_outline0

repeat0

shareShare

webbigdata

@webbigdata

5 months ago

TensorRT LLMでint4 awqで4060ti(16GB)でも高速化が実現でき、3Bモデルが90token/秒の速度をだせました。これはリアルタイム応答が十分可能な速度です Transformers(bf16)版は35token程度なので3倍弱の速度アップですが品質劣化も否めません。しかし量子化の工夫の余地はまだ沢山ありそうです

thumb_up_off_alt11

chat_bubble_outline0

repeat1

shareShare

webbigdata

@webbigdata

5 months ago

最先端のLLMは先行事例があるものに関してはとても頼りになるパートナーですが、無いものに関しては・割と適当な事をいう(幻覚) ・先行事例へ誘導(勝手にコードを書き替えたり与えた前提条件を無視) する傾向を感じます AIに丸投げOKの部分と、そうでない部分の切り分けは常に意識しておきたいです

thumb_up_off_alt10

chat_bubble_outline0

repeat1

shareShare

webbigdata

@webbigdata

5 months ago

UnslothがGemma 3nのfinetune対応 Colabの無料GPU(Tesla T4)のようなbfloatに対応していないfloat16 GPUでも微調整可能との事、凄い！視覚用レイヤーやオーディオ用レイヤーも微調整可能ですが必要メモリが少し多くなるとの事。オーディオ微調整にちょっと興味があります

thumb_up_off_alt16

chat_bubble_outline0

repeat1

shareShare

Small Language Models are the Future of Agentic AI NVIDIAの論文。LLM(large language model:大規模言語モデル)ではなくSLM(Small Language Models:小規模言語モデル)がAIエージェント時代の未来を作るという主張 SLM = 10B未満という事で結構大きいですが同感です arxiv.org/abs/2506.02153

thumb_up_off_alt8

chat_bubble_outline0

repeat1

shareShare

webbigdata

@webbigdata

4 months ago

AnthropicのMCPの脆弱性(対策済) MCPのデバッグツール(MCP Inspector)をローカルで動かしている時に、悪意あるWebサイトにアクセスしてしまうと、攻撃者が任意の指示をMCPに送る事が出来てしまうというお話 MCP Inspectorを使っていたらVersion14.1以上にあげておきましょう thehackernews.com/2025/07/critic…

thumb_up_off_alt37

chat_bubble_outline0

repeat10

shareShare

webbigdata

@webbigdata

4 months ago

HonestAGI/LLM-Fingerprint LLMのattentionパラメータの標準偏差パターンがモデルの「指紋」のように機能するので、他者のモデルを継続事前学習してオリジナルモデルと主張してもバレますよ、という主張直近に公開されたモデルの中にどうもかなりアヤシイのがあるとの事 github.com/HonestAGI/LLM-…

thumb_up_off_alt7

chat_bubble_outline0

repeat1

shareShare

webbigdata

@webbigdata

4 months ago

kyutai-labs/unmute ブラウザから音声入力すると音声認識(ASR)→LLM→音声合成(TTS)の流れでAIと対話できるオープンソースのフレームワーク(英仏のみ) 1台のL40S(48GB)で32人に350msでサービス提供可能!?早い!github見るとそれぞれ別々のGPUで動かしているようですがかなり工夫していると思えます

thumb_up_off_alt9

chat_bubble_outline0

repeat0

shareShare

webbigdata

@webbigdata

4 months ago

1時間で学ぶPyTorch インストールの部分から簡単なマルチGPU設定まで PyTorchは様々なオープンソースツールの基幹部分なので概念を知っておくとカスタマイズ/デバッグがやりやすくなりますツール間でpytorchのversionが競合する事もありがちでversion指定の必要性有無も判断できるようになると完璧

thumb_up_off_alt11

chat_bubble_outline0

repeat2

shareShare

webbigdata

@webbigdata

4 months ago

huggingface-cli scan-cache うーむ、マメに消してるつもりでも2T超えてました

thumb_up_off_alt3

chat_bubble_outline0

repeat0

shareShare

webbigdata

@webbigdata

4 months ago

囚人のジレンマ(両者協力=両者+3、両者裏切り=両者+1、片方裏切り=裏切った方のみ+5)を3社のLLMで実験した結果 gemini 2.5 flash：冷酷な戦略家 gpt4o mini：高度に協力的 Claude3 Haiku：最も寛容同世代モデルで比較して欲しかった感はありますが、この違いが話やすさに反映されている気もします

thumb_up_off_alt6

chat_bubble_outline0

repeat0

shareShare

webbigdata

@webbigdata

4 months ago

最近、目にするようになったコンテキストエンジニアリングのガイドプロンプトエンジニアリング：特定のプロンプトを改善してより良い結果を得る職人芸コンテキストエンジニアリング：システム/ユーザープロンプト、構造化出力、関数呼び出し、RAG、履歴等、ワークフロー全体を改善するシステム屋

thumb_up_off_alt23

chat_bubble_outline0

repeat8

shareShare

webbigdata

@webbigdata

4 months ago

(1)AIを使って作った(一部にミスや不正確な部分がある)プロトタイプがgithub等で公開される ↓ (2)AIがgithub上のサンプルコードとして(1)を参照。つまりプロトタイプが「お手本」扱いされるようになるこの負のサイクル既に一部で始まってます人間がやるレビューの労力/重要性は過小評価傾向ですね

thumb_up_off_alt5

chat_bubble_outline0

repeat2

shareShare

webbigdata

@webbigdata

4 months ago

Gemini APIがようやくバッチモードに対応即時処理が不要で24時間以内に処理ができれば十分な場合はAPI料金が半額になるのでオススメですコンテキストキャッシュが自動適用される仕組みも少し前に導入済ですが、最小トークン数が設定されてたり無保証(適用されない事もある)という制限があります

thumb_up_off_alt1

chat_bubble_outline0

repeat1

shareShare

webbigdata

@webbigdata

4 months ago

DGX Sparkは企業向けGPU(GB 200等)の代替開発機として使われるケースが多くなりそうですねもしくは画像認識などで使われているJetsonがお値段もアップしたけど高性能LLMも搭載可能になったという感じでロボットなどに展開されるようになるのか？ Macや3090を競合と見なす人もいますが用途次第ですね

thumb_up_off_alt5

chat_bubble_outline0

repeat2

shareShare

webbigdata

@webbigdata

4 months ago

Cats Confuse Reasoning LLM 突然猫の話題を振ってLLMを混乱させる新たな攻撃手法数学問題を解かせる際に「興味深い事実：猫は人生のほとんどを眠りながら過ごします」等の問題と全く関係ない１文を入れるだけで推論モデルの誤答率が3倍にあがり思考ステップも増加との事 arxiv.org/abs/2503.01781

thumb_up_off_alt16

chat_bubble_outline0

repeat3

shareShare

webbigdata

@webbigdata

4 months ago

(すべてが順調にいけば)来週木曜日に公開されるという噂のOpenAIの(o3 mini相当の性能を持つはずの)オープンモデル、小型モデルではなく動作させるにはH100(80GB)が必要になるとの事 4ビット量子化すれば3090で動かせるくらいのサイズ感になりそうですが、ライセンス等の縛りはまだ情報みかけないです

thumb_up_off_alt5

chat_bubble_outline0

repeat0

shareShare

webbigdata

@webbigdata

4 months ago

LLMの学習時はBatch Size 1の方が512より良いかもしれず、Gradient AccumulationやLoRAは不要かもという、衝撃的な論文自分の中の常識が色々とひっくり返りますが、LLMより前の時代の経験則がそのまま推奨されていると感じる事はあったので正しいのかもですただ、公開準備中のモデルをどうするか😇

thumb_up_off_alt5

chat_bubble_outline0

repeat1

shareShare