St4r (@xinqiu_bot) Twitter Tweets • TwiCopy

St4r

@xinqiu_bot

+ Follow

TikTok LLM Algo👷🏻‍♂ | Web3 Developer 🚀 | LLMs大模型探索者| 在折腾自己的一些想法

ID: 2936578958

linkhttp://xinqiu.me calendar_today20-12-2014 02:35:22

440 Tweet

3,3K Takipçi

177 Takip Edilen

St4r

10 months ago

把全量微调的路子也趟通了，BF16训练还是太吃资源了，还得研究一下FP8微调了。

thumb_up_off_alt6

chat_bubble_outline3

repeat0

shareShare

St4r

9 months ago

最近忙着给自己的训练框架搞SFT的支持，后面还得把RL Deepseek R1的路子给玩出来，现在主流的一些框架和方案都只能玩到70B左右的RL，671B的社区很难支持到这个程度。一条线是看好veRL把671B跑起来，另一条线就是得在自己的框架上把RL的能力接进来。

thumb_up_off_alt8

chat_bubble_outline0

repeat0

shareShare

St4r

8 months ago

为了支撑更大规模的模型预训练，开始深挖之前Deepseek开源的DualPipe，DualPipeV的天龙八步真的要看晕了，找Claude老师生成了个可视化配合着食用。

为了支撑更大规模的模型预训练，开始深挖之前Deepseek开源的DualPipe，DualPipeV的天龙八步真的要看晕了，找Claude老师生成了个可视化配合着食用。

thumb_up_off_alt2

chat_bubble_outline0

repeat0

shareShare

St4r

7 months ago

和Google的人聊了，发现内部有很多模型没放出来，慢慢思路变成业界有新的SOTA，就放出一个来反击，果然还是以前熟悉的那个谷歌。

thumb_up_off_alt2

chat_bubble_outline0

repeat0

shareShare

St4r

7 months ago

hazyresearch.stanford.edu/blog/2025-05-2… 太猛了，竟然把一个模型直接做成一个巨大的算子orz

thumb_up_off_alt4

chat_bubble_outline0

repeat0

shareShare

St4r

7 months ago

试了一下Claude Code，没办法帮忙把demos中的llama3.1 1B 改写成支持其他模型的kernels，让我又感觉搞AI Infra目前还稍微有一点点饭吃。

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

St4r

6 months ago

被MLA的qkv layout折腾半天，可算在vLLM把组里最新的一版MoE模型提前搞成支持用vLLM的model了，这周任务稍微完成点了orz

thumb_up_off_alt3

chat_bubble_outline0

repeat0

shareShare

St4r

6 months ago

试了一下veo3，又开始相信文生视频有新的玩法了。。。

thumb_up_off_alt1

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

一旦claude code在几次调教都无法解决这个问题时，我大概就知道这个问题很难直接被解决了orz

thumb_up_off_alt1

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

月底Google要发微调Gemini的工具了，小期待一波

thumb_up_off_alt1

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

体验上了 Google AI Mode，不知道会不会后面直接把Gemini Agent嵌入到这里面，直接绕过各个AI浏览器。。。

体验上了 Google AI Mode，不知道会不会后面直接把Gemini Agent嵌入到这里面，直接绕过各个AI浏览器。。。

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

也算是用自己(和老板)开发的框架把Qwen3 235B模型训练点火起来了，128卡 H100 搞的磕磕绊绊，动不动就OOM。。。

thumb_up_off_alt1

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

试了一下GPT5生成的速度挺快的，当然废话也有点多，没想到还是O1的架构。

thumb_up_off_alt4

chat_bubble_outline1

repeat0

shareShare

St4r

5 months ago

Claude For Financial 这个还挺有意思的，最近Claude在YouTube上发的一堆视频都挺有意思的，可以看看依托模型，大量真实产品的构建思路和玩法。实际上对大部分人来说Sonnet 3.7和4的差别没有想象中那么多，那么AI应用在4上构建可能就是上限了，4解决不了的可能下一代也无解 youtube.com/watch?v=50AhIy…

thumb_up_off_alt5

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

解了一个训练Qwen 235B的问题，可以安心玩一玩B200的效果了orz

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

St4r

5 months ago

拒绝了Double薪资的内部挖人，继续待着安心搞点好玩的orz

thumb_up_off_alt15

chat_bubble_outline2

repeat0

shareShare

St4r

4 months ago

我有点感觉，Dia有个好的设计是，把一些AI插件用skill化来取代了。通过浏览器把一些本地底层接口做成了类似MCP，然后上层用户使用Prompt去选择获取调用，确实比以前手动开发浏览器插件要快多了。

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

St4r

4 months ago

没想到在日本旅游很舒服的一点竟然是电话卡随时随地可以用ChatGPT、gmail这些app

没想到在日本旅游很舒服的一点竟然是电话卡随时随地可以用ChatGPT、gmail这些app

thumb_up_off_alt2

chat_bubble_outline1

repeat0

shareShare

St4r

4 months ago

年纪轻轻已经突然开始心率不齐了😢

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare

St4r

4 months ago

今天的玄学发现是模型随机初始化的initialized range直接让模型初始效果天差地别，迁移代码的时候漏了不同layer的初始化有讲究，搞半天还以为tie weight哪里出问题了orz

thumb_up_off_alt0

chat_bubble_outline0

repeat0

shareShare