Leo Xiang (@leeoxiang) 's Twitter Profile
Leo Xiang

@leeoxiang

10年RTC音视频经验,专注于实时通信技术

目前在腾讯云负责Voice + AI方向的云产品,专注于语音AI技术的产品化

奶爸,正在教刚出生的小宝宝学习大模型,并对我家小宝宝进行后训练

agent101.dev
realtimeai.dev

ID: 148027226

linkhttps://realtimeai.dev/ calendar_today25-05-2010 17:04:34

3,3K Tweet

15,15K Takipçi

825 Takip Edilen

Leo Xiang (@leeoxiang) 's Twitter Profile Photo

说一个最近的观察和思考: 越来越不看好端到端音频的模型,端到端音频的模型可能只是一个能更好识别情绪或者表达情绪的 ASR 和 TTS. 而单独的ASR 和 TTS 也在具备识别情绪和事件能力,以及表达情感的能力。

Leo Xiang (@leeoxiang) 's Twitter Profile Photo

kokoro tts性能不错的,kokoro-onnx 在M1 上合成一段2s的语音只需要 0.5s,如果有mlx原生的支持性能应该还能提升一到两倍。

kokoro tts性能不错的,kokoro-onnx 在M1 上合成一段2s的语音只需要 0.5s,如果有mlx原生的支持性能应该还能提升一到两倍。
Leo Xiang (@leeoxiang) 's Twitter Profile Photo

OpenAI 的大模型交互文档已正式切换为 Response API,标志着 Chat API 正式步入其生命周期的后半段。 Response API 不仅是接口形式的演进,更预示着我们正加速迈入 Agent 时代。

Leo Xiang (@leeoxiang) 's Twitter Profile Photo

OpenAI 在协议定义上还是有号召力,Realtime API 的规范也基本成为标准了,看到多家的端到端方案都采用了Realtime API标准,或者是修改版的Realtime API 标准。

Leo Xiang (@leeoxiang) 's Twitter Profile Photo

这个亲身实践过,30天1000完全不是难事,去年是通过四个月涨到7000关注。关键的是如何找到你的"正反馈"。

Leo Xiang (@leeoxiang) 's Twitter Profile Photo

不知道有没有基于webscoekt 的agent 互通协议, 基于http的agent协议完全不考虑实时场景。 基于http的agent 协议在实时场景有很大问题,http 这种调来调去 一是延迟大 ,二是还得搞webhook,交互一点没简单。

Leo Xiang (@leeoxiang) 's Twitter Profile Photo

Gemini Live API 这次模型更新有两个特别好的能力: 1、Proactive Audio(主动音频响应) 模型会根据上下文主动判断是否有必要作出回应,以及打断。 2、Asynchronous Function Calling(异步函数调用) 允许模型在函数执行期间继续与用户对话。 这两个都非常实用。