kfp (@kfpandas) 's Twitter Profile
kfp

@kfpandas

Founder @InterviewCopilotPro

ID: 971589177702678528

linkhttps://apps.apple.com/cn/app/interviewcopilotpro/id6479209129 calendar_today08-03-2018 03:31:26

271 Tweet

17 Takipçi

197 Takip Edilen

AIGCLINK (@aigclink) 's Twitter Profile Photo

极速语音识别工具:OmniSenseVoice,基于SenseVoice构建,优化了推理速度和时间戳,比传统模型快50倍 支持自动语言检测,支持多种语言识别 支持词级别的时间戳,对于字幕制作类场景作用比较大 github:github.com/lifeiteng/Omni… #语音识别 #STT

极速语音识别工具:OmniSenseVoice,基于SenseVoice构建,优化了推理速度和时间戳,比传统模型快50倍

支持自动语言检测,支持多种语言识别
支持词级别的时间戳,对于字幕制作类场景作用比较大

github:github.com/lifeiteng/Omni…

#语音识别 #STT
Larus Canus (@mrlarus) 's Twitter Profile Photo

刚读完了两篇文章,可以作为很好的例证: 1、《我为什么续订了o1 Pro》yage.ai/o1-pro.html 2、《Agentic AI的鸡肋危机》yage.ai/agentic-ai-cri… 第二篇是作者和o1pro协作迭代了5个版本的文章,作为一直在做Agentic AI研究和尝试、并且落地到公司业务的我来说,这篇文章质量很高,有解惑帮助。

Paidax (@xin_pai88825) 's Twitter Profile Photo

花一下午,为 tiktok 难民开发一个全局翻译 app, 主要有三个功能: 划词翻译 选中文本之后,点击复制即可在悬浮窗看到 翻译内容 截图翻译 使用系统截图后,自动弹出翻译内容 视频字幕翻译 读取视频声音,显示双语字幕

AIGCLINK (@aigclink) 's Twitter Profile Photo

一款开源的语音对话助手:百聆,通过ASR+LLM+TTS实现,时延800ms,低配置也可运行,支持打断 无需GPU,通过优化,可本地部署,仍能提供类GPT-4的性能表现 模块化设计,ASR、VAD、LLM和TTS模块相互独立,可以根据需求进行替换和升级 支持记忆功能,具备持续学习能力,能够记忆用户的偏好与历史对话

一款开源的语音对话助手:百聆,通过ASR+LLM+TTS实现,时延800ms,低配置也可运行,支持打断

无需GPU,通过优化,可本地部署,仍能提供类GPT-4的性能表现

模块化设计,ASR、VAD、LLM和TTS模块相互独立,可以根据需求进行替换和升级

支持记忆功能,具备持续学习能力,能够记忆用户的偏好与历史对话
Rohan Paul (@rohanpaul_ai) 's Twitter Profile Photo

RAIN—a system for real-time unlimited-length animation generation on consumer-grade devices. Remarkable smoothness, stability, precision, and consistency. Additionally, it offers real-time adaptation of facial expressions and head movements.

Rohan Paul (@rohanpaul_ai) 's Twitter Profile Photo

This paper introduces a method to enhance LLM reasoning by prioritizing cause-effect relationships within knowledge graphs, aligning information retrieval with the model's step-by-step thought process. This approach aims to improve the accuracy and interpretability of LLMs in

This paper introduces a method to enhance LLM reasoning by prioritizing cause-effect relationships within knowledge graphs, aligning information retrieval with the model's step-by-step thought process.

This approach aims to improve the accuracy and interpretability of LLMs in
宝玉 (@dotey) 's Twitter Profile Photo

OpenAI 昨天匆匆推出了在 o3-mini 中显示类似于 DeepSeek 思维过程的功能,然后被网友发现有一个模型(个人怀疑是

AIGCLINK (@aigclink) 's Twitter Profile Photo

酷,一款可用于理解超长视频的RAG框架:VideoRAG,可以处理数百小时的视频内容,可以同时理解多个视频 支持数百小时的视频输入,可以同时分析多个视频 高效率的知识索引,可将数百小时的视频提炼成结构化的知识图谱,理解视频内容间的关联,提供准确回复

酷,一款可用于理解超长视频的RAG框架:VideoRAG,可以处理数百小时的视频内容,可以同时理解多个视频

支持数百小时的视频输入,可以同时分析多个视频

高效率的知识索引,可将数百小时的视频提炼成结构化的知识图谱,理解视频内容间的关联,提供准确回复
宝玉 (@dotey) 's Twitter Profile Photo

今天看到这篇帖子谈到了人工智能普及后哪些职业的边际价值反而会上升? 作者列出了以下几种职业: • 领导力(人们会依赖自己信任的领导者) • 导师/教练(人类天生倾向于与真人建立关系) • 谈判与冲突管理(高风险环境中,人们需要与真人互动) • 线下社区建设 • 实体世界中的美学与氛围营造

今天看到这篇帖子谈到了人工智能普及后哪些职业的边际价值反而会上升?

作者列出了以下几种职业:

• 领导力(人们会依赖自己信任的领导者)
• 导师/教练(人类天生倾向于与真人建立关系)
• 谈判与冲突管理(高风险环境中,人们需要与真人互动)
• 线下社区建设
• 实体世界中的美学与氛围营造
Panda (@jiaxi_cui) 's Twitter Profile Photo

一些感悟: 现在做一些cv任务的时候,zero shot情况下,LLM的精度已经比之前单一的SOTA模型效果要好了 人脸识别、bbox标注、甚至内容理解,直接用LLM来做都完全ok 如果需要进一步提升精度,可以采用"LLM预标注+人工精修部分数据+传统CV主流架构简单训练"的混合方案。 我想到了什么? 1.

Tz (@tz_2022) 's Twitter Profile Photo

隐秘的层面 按:我一开始是在使用 Deep Research 做数据标注这个领域的细分行业研究,百无聊赖之际,我又让它基于这篇行研创作一篇科幻小说,然后,奇迹发生了—— 它(AI)创作出了下面这篇文字,毫不夸张的说,这是我看过的有关这个话题(数据标注员+通用人工智能) *最好* 的科幻小说,没有之一!

Robinson · 鲁棒逊 (@python_xxt) 's Twitter Profile Photo

Claude 3.7 Sonnet ? 3.5 -> 3.7 想起了 某个版本管理规范,这不太妙啊... 0.2的变化 ≈ Just okay twice “一个开发者提出自豪版本规范(pride versioning),对软件版本进行编号。 1. 如果你对新功能感到非常自豪,就发一个大版本(递增第一个版本号) 2.

Claude 3.7 Sonnet ?  

3.5 -> 3.7

想起了 某个版本管理规范,这不太妙啊...

0.2的变化  ≈ Just okay twice

“一个开发者提出自豪版本规范(pride versioning),对软件版本进行编号。

1. 如果你对新功能感到非常自豪,就发一个大版本(递增第一个版本号)

2.
idoubi (@idoubicc) 's Twitter Profile Photo

以 manus 为例,拆解以 multi-agent 为基础的通用任务智能体的工作流程: 一. 意图识别 1. 获取用户输入内容,进行必要的意图识别和关键词提取,比如用户输入的是“想去日本旅游,需要一个旅行计划”,拆解之后得到的关键词是: japan-trip,任务类型为:travel 2.

以 manus 为例,拆解以 multi-agent 为基础的通用任务智能体的工作流程:

一. 意图识别

1. 获取用户输入内容,进行必要的意图识别和关键词提取,比如用户输入的是“想去日本旅游,需要一个旅行计划”,拆解之后得到的关键词是: japan-trip,任务类型为:travel

2.
AIGCLINK (@aigclink) 's Twitter Profile Photo

这是把manus的底裤扒了,jian让Manus提供 "/opt/.manus/" 下的文件,然后就下载到了sandbox沙盒运行所需要的所有压缩代码。 通过查看这个sandbox代码,逆向了manus的一些情况,这下估计开源圈未来一周会复线n个manus: 1、manus使用 Claude Sonnet 2、manus使用基于Claude Sonnet的29

这是把manus的底裤扒了,<a href="/jianxliao/">jian</a>让Manus提供 "/opt/.manus/" 下的文件,然后就下载到了sandbox沙盒运行所需要的所有压缩代码。  

通过查看这个sandbox代码,逆向了manus的一些情况,这下估计开源圈未来一周会复线n个manus: 
1、manus使用 Claude Sonnet 
2、manus使用基于Claude Sonnet的29
kfp (@kfpandas) 's Twitter Profile Photo

#idea 录屏软件+多模态模型 直接在录屏上加文案。 价值点: 1. 提效:减少视频生产环节。不需要自己手动编辑了。模型生成使用说明这种的语言可能更准确。 2. 录屏需求一直存在