Hiroto Kurita (@hiroto_kurita) 's Twitter Profile
Hiroto Kurita

@hiroto_kurita

phd-ing @tohoku_nlp

ID: 1068786032676499456

linkhttp://kurita.dev calendar_today01-12-2018 08:37:02

596 Tweet

1,1K Takipçi

924 Takip Edilen

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

複数データセンター間で大量のデータを転送する際に利用している LFTPの利用方法とhuggingface-cli upload-large-folderの使い分けに関するTipsブログを書きました。 大量のデータ (数TB〜数100TB)を別の環境に移送する際に参考にしていただけますと幸いです。 zenn.dev/turing_motors/…

Kotoba Technologies (@kotoba_tech) 's Twitter Profile Photo

Kotoba Technologiesはこのたび、アジア太平洋機械翻訳協会(アジア太平洋機械翻訳協会(AAMT))の長尾賞の受賞に選ばれました🏆日本が誇るコンピュータサイエンティストである長尾先生の名を冠したこの賞を受賞できたことを大変光栄に思います。 news.yahoo.co.jp/articles/c0334…

ライブドアニュース (@livedoornews) 's Twitter Profile Photo

【日本産】生成AIによる同時翻訳が「予測」の領域に リアルタイム翻訳サービス、遅延は“-0.5秒“ news.livedoor.com/article/detail… サービス「同時通訳」はリアルタイム性と精度の2つで、世界最速レベルを達成。また、相手が次に話す内容を“予知”することで、話す前に文字が表示される“-0.5秒“にまで達した。

【日本産】生成AIによる同時翻訳が「予測」の領域に リアルタイム翻訳サービス、遅延は“-0.5秒“
news.livedoor.com/article/detail…

サービス「同時通訳」はリアルタイム性と精度の2つで、世界最速レベルを達成。また、相手が次に話す内容を“予知”することで、話す前に文字が表示される“-0.5秒“にまで達した。
jack morris (@jxmnop) 's Twitter Profile Photo

new paper from our work at Meta! **GPT-style language models memorize 3.6 bits per param** we compute capacity by measuring total bits memorized, using some theory from Shannon (1953) shockingly, the memorization-datasize curves look like this: ___________ / / (🧵)

new paper from our work at Meta!

**GPT-style language models memorize 3.6 bits per param**

we compute capacity by measuring total bits memorized, using some theory from Shannon (1953)

shockingly, the memorization-datasize curves look like this:
      ___________
  /
/

(🧵)
jack morris (@jxmnop) 's Twitter Profile Photo

this gives a pretty good explanation into how models learn in particular, it explains grokking grokking occurs *exactly* when capacity saturates. this is where models can't perfectly fit every training example, so they have to share info bt examples in a smart way

this gives a pretty good explanation into how models learn

in particular, it explains grokking

grokking occurs *exactly* when capacity saturates. this is where models can't perfectly fit every training example, so they have to share info bt examples in a smart way
jack morris (@jxmnop) 's Twitter Profile Photo

hello twittersphere! i am planning to graduate in a few months, so i am officially ✨ Looking For A Job ✨ if you know of a role that'd be a good fit, or just want to chat, please reach out! here are some projects i've worked on that i'm most proud of 👇

hello twittersphere!  i am planning to graduate in a few months, so i am officially ✨ Looking For A Job ✨

if you know of a role that'd be a good fit,  or just want to chat, please reach out!

here are some projects i've worked on that i'm most proud of 👇
Richard Wei (@rxwei) 's Twitter Profile Photo

On behalf of the whole team I'm so proud to introduce the Foundation Models framework, an API to access our on-device LLM! Check out the Platforms State of the Union for an introduction and 4 sessions later today! developer.apple.com/news/?id=us98z… #WWDC25

On behalf of the whole team I'm so proud to introduce the Foundation Models framework, an API to access our on-device LLM!  Check out the Platforms State of the Union for an introduction and 4 sessions later today!
developer.apple.com/news/?id=us98z…

 #WWDC25
Nathan Lambert (@natolambert) 's Twitter Profile Photo

Apple exposing a developer API for their on device AI models is a major step in the right direction for them and the open model ecosystem. This is going to open up new feedback loops on models and a major platform for AI applications.

Apple exposing a developer API for their on device AI models is a major step in the right direction for them and the open model ecosystem. This is going to open up new feedback loops on models and a major platform for AI applications.
福島良典 | LayerX (@fukkyy) 's Twitter Profile Photo

プロンプトエンジニアリングがいらなくなったという風潮がよくわからない。メタプロンプト的な指示の書き方、Agentic RAG的な外部知識の引き出し方、自己改善的なメモリ更新、外部ツールの使い方を適切に教える…etc

たつお (@tatsuokundayo) 's Twitter Profile Photo

iOS26/macOS26のApple Intelligenceで使われてる3b on-device modelとserver modelの詳細が公開されてた!基盤モデルのお話です〜 machinelearning.apple.com/research/apple…

Jungo Kasai 笠井淳吾 (@jungokasai) 's Twitter Profile Photo

Finally closed our $11M+ funding round! Backed by top Japanese VCs and amazing angel investors including Joi Ito, Thomas Wolf from Hugging Face, Noah A. Smith, Luke Zettlemoyer, and Sasha Rush. Now it’s time to focus on commercialization and tech development!!

Sloth🦥 (@sloth65557166) 's Twitter Profile Photo

「Core Audio tapを使ったリアルタイム音声処理のお話」という題目で 明日のFlutter TokyoでLTします! macOSデスクトップアプリで、音声アプリの幅が広がるよ〜〜〜 な話をします😎 flutter-jp.connpass.com/event/359088/

Ruoming Pang (@ruomingpang) 's Twitter Profile Photo

Proud to share our report on AXLearn (github.com/apple/axlearn), the code base for building Apple Foundation Models: arxiv.org/abs/2507.05411.

Tatsuki Kuribayashi (@ttk_kuribayashi) 's Twitter Profile Photo

8月から MBZUAI にて助教を務めることになりました。 引き続き(NLPと言語学を橋渡しできるような)興味深い仕事ができればと思います。 小さなチームも持ち、ポスドク・ビジター探しております。日本との共同研究も強固にしたく、今後ともよろしくお願いいたします! 👉 kuribayashi4.github.io

Anne Wu (@anne_youw) 's Twitter Profile Photo

🗣️We can listen and speak simultaneously when we talk, and so should the spoken dialogue models (SDMs)! 💬Unlike typical "walkie-talkie" voice AIs, full-duplex SDMs let both sides talk at once - more like real, natural conversation. But this makes alignment harder: - No

🗣️We can listen and speak simultaneously when we talk, and so should the spoken dialogue models (SDMs)!

💬Unlike typical "walkie-talkie" voice AIs, full-duplex SDMs let both sides talk at once - more like real, natural conversation.

But this makes alignment harder:
- No
Kotoba Technologies (@kotoba_tech) 's Twitter Profile Photo

久しぶりに Zennで記事を公開しました! Keisuke Kamahori が Kotoba を支える MLSys周りの最先端技術をまとめてくれました。ぜひご一読ください。 Kotoba では MLSys エンジニアの採用を最強化中です。 弊社 X のヘッダーからぜひご応募ください! zenn.dev/kotoba_tech/ar…

Kazuki Fujii (@okoge_kaz) 's Twitter Profile Photo

👀 > Each attention head has a learned bias in the denominator of the softmax, similar to off-by-one attention and attention sinks [14][15], which enables the attention mechanism to pay no attention to any tokens. cdn.openai.com/pdf/419b6906-9…