Murat 💾 (@muratyillmaz_) 's Twitter Profile
Murat 💾

@muratyillmaz_

Machine Learning / Deep Learning

ID: 1639388751053946882

calendar_today24-03-2023 22:09:13

35 Tweet

28 Followers

159 Following

Murat 💾 (@muratyillmaz_) 's Twitter Profile Photo

Harika bir Çin filmi. Java developer bir elemanın yaşından ötürü işini kaybedip hayata tutunmaya çalışmasını anlatıyor. Çin'de ki çalışma şartlarına çok güzel ışık tutmuş olduğunu Çinli 3 farklı arkadaşımdan teyit ederek söylüyorum.

Harika bir Çin filmi. Java developer bir elemanın yaşından ötürü işini kaybedip hayata tutunmaya çalışmasını anlatıyor. Çin'de ki çalışma şartlarına çok güzel ışık tutmuş olduğunu Çinli 3 farklı arkadaşımdan teyit ederek söylüyorum.
Murat 💾 (@muratyillmaz_) 's Twitter Profile Photo

Multi-Head, Multi-Query ve Grouped-Query Attention mekanizmalarını bellek tüketimi altında karşılaştırdığım ve DeepSeek'in Multi-Head Latent Attention'ın KV-Cache perspektifinde burada oluşturduğu farklılığı ele aldığım bir yazı hazırladım. Colab mevcut. medium.com/p/attention-me…

Xin Eric Wang @ ICLR 2025 (@xwang_lk) 's Twitter Profile Photo

This precisely explains why llama 4 failed. Politicians won the politics game while real scientists struggled with computing resources.

Murat 💾 (@muratyillmaz_) 's Twitter Profile Photo

Microsoft Research China tarafından denenmiş LLM lere prompt yazmayı standartlaştırmayı hedefleyen güzel bir yaklaşım. Prompt Orchestration Markup Language: POML arxiv.org/pdf/2508.13948 github.com/microsoft/poml

机器之心 JIQIZHIXIN (@synced_global) 's Twitter Profile Photo

Wow, a new post-training method. SFT = efficient but capped 🚦 RL = powerful but slow 🐢 Now enter: Guess-Think-Answer (GTA) GTA fuses guess (SFT), think (reflection), and answer (RL-shaped). Result: ⚡ Faster convergence than RL 📈 Higher ceiling than SFT 🛠️ Gradient

Wow, a new post-training method.

SFT = efficient but capped 🚦
RL = powerful but slow 🐢

Now enter: Guess-Think-Answer (GTA)

GTA fuses guess (SFT), think (reflection), and answer (RL-shaped).

Result:
⚡ Faster convergence than RL
📈 Higher ceiling than SFT
🛠️ Gradient
alphaXiv (@askalphaxiv) 's Twitter Profile Photo

Introducing NotebookLM for arXiv papers 🚀 Transform dense AI research into an engaging conversation With context across thousands of related papers, it captures motivations, draws connections to SOTA, and explains key insights like a professor who's read the entire field

vLLM (@vllm_project) 's Twitter Profile Photo

Announcing the completely reimagined vLLM TPU! In collaboration with Google, we've launched a new high-performance TPU backend unifying PyTorch and JAX under a single lowering path for amazing performance and flexibility. 🚀 What's New? - JAX + Pytorch: Run PyTorch models on

Announcing the completely reimagined vLLM TPU! In collaboration with <a href="/Google/">Google</a>, we've launched a new high-performance TPU backend unifying <a href="/PyTorch/">PyTorch</a> and JAX under a single lowering path for amazing performance and flexibility.

🚀 What's New?
- JAX + Pytorch: Run PyTorch models on