Leo Xiang (@leeoxiang) Twitter Tweets • TwiCopy

Leo Xiang

@leeoxiang

+ Follow

10年RTC音视频经验，专注于实时通信技术

目前在腾讯云负责Voice + AI方向的云产品，专注于语音AI技术的产品化

奶爸，正在教刚出生的小宝宝学习大模型，并对我家小宝宝进行后训练

agent101.dev
realtimeai.dev

ID: 148027226

linkhttps://realtimeai.dev/ calendar_today25-05-2010 17:04:34

3,3K Tweet

15,15K Takipçi

825 Takip Edilen

Leo Xiang

4 months ago

32B and 1.7B 32B 用来做一些问答推理任务 1.7B 微调完用来做一些NLP的任务

thumb_up_off_alt16

chat_bubble_outline2

repeat0

shareShare

Leo Xiang

4 months ago

请教推友，你都用过哪些多模态大模型的产品？

thumb_up_off_alt0

chat_bubble_outline4

repeat0

shareShare

Leo Xiang

4 months ago

说一个最近的观察和思考：越来越不看好端到端音频的模型，端到端音频的模型可能只是一个能更好识别情绪或者表达情绪的 ASR 和 TTS. 而单独的ASR 和 TTS 也在具备识别情绪和事件能力，以及表达情感的能力。

thumb_up_off_alt24

chat_bubble_outline8

repeat2

shareShare

Leo Xiang

4 months ago

开源的迭代太快了，AI 这一波技术浪潮真的是技术平权。

thumb_up_off_alt6

chat_bubble_outline1

repeat0

shareShare

Leo Xiang

4 months ago

kokoro tts性能不错的，kokoro-onnx 在M1 上合成一段2s的语音只需要 0.5s，如果有mlx原生的支持性能应该还能提升一到两倍。

kokoro tts性能不错的，kokoro-onnx 在M1 上合成一段2s的语音只需要 0.5s，如果有mlx原生的支持性能应该还能提升一到两倍。

thumb_up_off_alt50

chat_bubble_outline2

repeat5

shareShare

Leo Xiang

4 months ago

OpenAI 的大模型交互文档已正式切换为 Response API，标志着 Chat API 正式步入其生命周期的后半段。 Response API 不仅是接口形式的演进，更预示着我们正加速迈入 Agent 时代。

thumb_up_off_alt53

chat_bubble_outline4

repeat3

shareShare

Leo Xiang

4 months ago

有没有一种可能： OpenAI 的Response API 会成为Agent 互通的标准？

thumb_up_off_alt8

chat_bubble_outline7

repeat0

shareShare

Leo Xiang

4 months ago

有同感，一旦检索到CSDN 之类的内容就有点担心，搜索结果又被带偏了。

thumb_up_off_alt8

chat_bubble_outline0

repeat0

shareShare

Leo Xiang

3 months ago

好消息是：gemini live api 支持中文了坏消息是：中文tts效果基本没法听

好消息是：gemini live api 支持中文了
坏消息是：中文tts效果基本没法听

thumb_up_off_alt14

chat_bubble_outline3

repeat1

shareShare

Leo Xiang

3 months ago

OpenAI 在协议定义上还是有号召力，Realtime API 的规范也基本成为标准了，看到多家的端到端方案都采用了Realtime API标准，或者是修改版的Realtime API 标准。

thumb_up_off_alt8

chat_bubble_outline2

repeat0

shareShare

Leo Xiang

3 months ago

每天通过Chatgpt 学习一个小时，很快就能初步了解一个方向：

每天通过Chatgpt 学习一个小时，很快就能初步了解一个方向：

thumb_up_off_alt17

chat_bubble_outline0

repeat0

shareShare

Leo Xiang

3 months ago

这个亲身实践过，30天1000完全不是难事，去年是通过四个月涨到7000关注。关键的是如何找到你的"正反馈"。

thumb_up_off_alt8

chat_bubble_outline1

repeat1

shareShare

Leo Xiang

3 months ago

Gemini 放出来了一次性合成多个人的对话的TTS，复现NotebookLM 的多人播客效果的门槛也没了。

Gemini 放出来了一次性合成多个人的对话的TTS，复现NotebookLM 的多人播客效果的门槛也没了。

thumb_up_off_alt377

chat_bubble_outline9

repeat55

shareShare

Leo Xiang

3 months ago

Google 在多模态方向真是碾压的存在。

thumb_up_off_alt13

chat_bubble_outline5

repeat1

shareShare

Leo Xiang

3 months ago

下午开个直播分享一下Gemini Live API 最新的能力升级。

下午开个直播分享一下Gemini Live API 最新的能力升级。

thumb_up_off_alt15

chat_bubble_outline0

repeat1

shareShare

Leo Xiang

3 months ago

大家可以在这里体验： aistudio.google.com/generate-speech

thumb_up_off_alt56

chat_bubble_outline0

repeat3

shareShare

Leo Xiang

3 months ago

太忧伤了，还是继续用ChatGPT吧。

太忧伤了，还是继续用ChatGPT吧。

thumb_up_off_alt22

chat_bubble_outline18

repeat0

shareShare

Leo Xiang

3 months ago

不知道有没有基于webscoekt 的agent 互通协议，基于http的agent协议完全不考虑实时场景。基于http的agent 协议在实时场景有很大问题，http 这种调来调去一是延迟大，二是还得搞webhook，交互一点没简单。

thumb_up_off_alt5

chat_bubble_outline1

repeat0

shareShare

Leo Xiang

3 months ago

Gemini Live API 这次模型更新有两个特别好的能力： 1、Proactive Audio（主动音频响应）模型会根据上下文主动判断是否有必要作出回应，以及打断。 2、Asynchronous Function Calling（异步函数调用）允许模型在函数执行期间继续与用户对话。这两个都非常实用。

thumb_up_off_alt24

chat_bubble_outline1

repeat2

shareShare