St4r (@xinqiu_bot) 's Twitter Profile
St4r

@xinqiu_bot

TikTok LLM Algo👷🏻‍♂ | Web3 Developer 🚀 | LLMs大模型探索者| 在折腾自己的一些想法

ID: 2936578958

linkhttp://xinqiu.me calendar_today20-12-2014 02:35:22

440 Tweet

3,3K Takipçi

177 Takip Edilen

St4r (@xinqiu_bot) 's Twitter Profile Photo

最近忙着给自己的训练框架搞SFT的支持,后面还得把RL Deepseek R1的路子给玩出来,现在主流的一些框架和方案都只能玩到70B左右的RL,671B的社区很难支持到这个程度。一条线是看好veRL把671B跑起来,另一条线就是得在自己的框架上把RL的能力接进来。

St4r (@xinqiu_bot) 's Twitter Profile Photo

为了支撑更大规模的模型预训练,开始深挖之前Deepseek开源的DualPipe,DualPipeV的天龙八步真的要看晕了,找Claude老师生成了个可视化配合着食用。

为了支撑更大规模的模型预训练,开始深挖之前Deepseek开源的DualPipe,DualPipeV的天龙八步真的要看晕了,找Claude老师生成了个可视化配合着食用。
St4r (@xinqiu_bot) 's Twitter Profile Photo

和Google的人聊了,发现内部有很多模型没放出来,慢慢思路变成业界有新的SOTA,就放出一个来反击,果然还是以前熟悉的那个谷歌。

St4r (@xinqiu_bot) 's Twitter Profile Photo

试了一下Claude Code,没办法帮忙把demos中的llama3.1 1B 改写成支持其他模型的kernels,让我又感觉搞AI Infra目前还稍微有一点点饭吃。

St4r (@xinqiu_bot) 's Twitter Profile Photo

被MLA的qkv layout折腾半天,可算在vLLM把组里最新的一版MoE模型提前搞成支持用vLLM的model了,这周任务稍微完成点了orz

St4r (@xinqiu_bot) 's Twitter Profile Photo

一旦claude code在几次调教都无法解决这个问题时,我大概就知道这个问题很难直接被解决了orz

St4r (@xinqiu_bot) 's Twitter Profile Photo

体验上了 Google AI Mode,不知道会不会后面直接把Gemini Agent嵌入到这里面,直接绕过各个AI浏览器。。。

体验上了 Google AI Mode,不知道会不会后面直接把Gemini Agent嵌入到这里面,直接绕过各个AI浏览器。。。
St4r (@xinqiu_bot) 's Twitter Profile Photo

也算是用自己(和老板)开发的框架把Qwen3 235B模型训练点火起来了,128卡 H100 搞的磕磕绊绊,动不动就OOM。。。

St4r (@xinqiu_bot) 's Twitter Profile Photo

Claude For Financial 这个还挺有意思的,最近Claude在YouTube上发的一堆视频都挺有意思的,可以看看依托模型,大量真实产品的构建思路和玩法。实际上对大部分人来说Sonnet 3.7和4的差别没有想象中那么多,那么AI应用在4上构建可能就是上限了,4解决不了的可能下一代也无解 youtube.com/watch?v=50AhIy…

St4r (@xinqiu_bot) 's Twitter Profile Photo

我有点感觉,Dia有个好的设计是,把一些AI插件用skill化来取代了。通过浏览器把一些本地底层接口做成了类似MCP,然后上层用户使用Prompt去选择获取调用,确实比以前手动开发浏览器插件要快多了。

St4r (@xinqiu_bot) 's Twitter Profile Photo

今天的玄学发现是模型随机初始化的initialized range直接让模型初始效果天差地别,迁移代码的时候漏了不同layer的初始化有讲究,搞半天还以为tie weight哪里出问题了orz