Charlie (@tuzhenzhao) 's Twitter Profile
Charlie

@tuzhenzhao

Dependent Coder & Independent Problem Solver

ID: 1016764916944891904

linkhttp://math.tuzhenzhao.com calendar_today10-07-2018 19:23:41

384 Tweet

85 Followers

289 Following

宝玉 (@dotey) 's Twitter Profile Photo

最近有个朋友跟我讨论技术问题,他在用个第三方的OCR的服务,用来提取发票上的文字为结构化数据。但收费较高,想自己实现一套,试了开源的PaddleOCR,识别可以,但是无法转成结构化的数据。 我建议他试试多模态的LLM,比如Gemini 1.5 Flash,用来做 OCR 效果非常好,可以在 Prompt

最近有个朋友跟我讨论技术问题,他在用个第三方的OCR的服务,用来提取发票上的文字为结构化数据。但收费较高,想自己实现一套,试了开源的PaddleOCR,识别可以,但是无法转成结构化的数据。

我建议他试试多模态的LLM,比如Gemini 1.5 Flash,用来做 OCR 效果非常好,可以在 Prompt
Charlie (@tuzhenzhao) 's Twitter Profile Photo

Janus的优化地方只有三个: 1. 分开了多模态的理解和生成编码器,后又合并 2. 调整,加长了训练策略 3. 加了一些数据 技术细节还没出,但可以推测的是,太多创新的方法仍然做出了如此之好的效果,说明: 1. 数据质量功不可没。合成数据和蒸馏数据是巨人的肩膀 2. 缩放定律仍然存在,而且很蓬勃

Charlie (@tuzhenzhao) 's Twitter Profile Photo

ChatGPT的深度调研(deep research)功能最惊人的地方不是搜索网页而是对Agent工作的理解,这是一种新的scaling law: “搜索调用工具越多,思考就会越清晰,答案就越接近真相” 所以,给AI时间去思考和调用才是关键。 openai.com/index/introduc…

ChatGPT的深度调研(deep research)功能最惊人的地方不是搜索网页而是对Agent工作的理解,这是一种新的scaling law:

“搜索调用工具越多,思考就会越清晰,答案就越接近真相”

所以,给AI时间去思考和调用才是关键。

openai.com/index/introduc…
Charlie (@tuzhenzhao) 's Twitter Profile Photo

s1: Simple test-time scaling 这篇论文5天前发布就又掀起AI泡沫讨论 这不是什么离谱的突破但是每一个要训练模型的人都要看的方法。因为他们做对了两件事: 1. 延长了模型思考时间 2. 完整的高质量数据处理流程 就这么简单。我为此详细地写了如何操作,供参考:math.tuzhenzhao.com/llm-poject/s1/…

宝玉 (@dotey) 's Twitter Profile Photo

可以看得出,OpenAI 正在用 o3 的数据来蒸馏 GPT-4o,所以 GPT-4o 越来越强了。 o1、o3 这样的推理模型因为更擅长逻辑推理和长链思考(或在某些领域拥有更深入的知识),因此能生成更高质量、更精准、更具启发性的数据。

可以看得出,OpenAI 正在用 o3 的数据来蒸馏 GPT-4o,所以 GPT-4o 越来越强了。

o1、o3 这样的推理模型因为更擅长逻辑推理和长链思考(或在某些领域拥有更深入的知识),因此能生成更高质量、更精准、更具启发性的数据。
Charlie (@tuzhenzhao) 's Twitter Profile Photo

20万台GPU啊…真切地感受制裁和不制裁的区别!Grok3拥有略高于R1的水平但成本是R1的256倍! 我不知道华尔街这群玩股票的人是怎么得出英伟达GPU需求会下降这种弱智结论的。试问如果DeepSeek有20万台GPU,他们只会做一个和o1比肩的模型就会满足是吧?

20万台GPU啊…真切地感受制裁和不制裁的区别!Grok3拥有略高于R1的水平但成本是R1的256倍!

我不知道华尔街这群玩股票的人是怎么得出英伟达GPU需求会下降这种弱智结论的。试问如果DeepSeek有20万台GPU,他们只会做一个和o1比肩的模型就会满足是吧?
AIGCLINK (@aigclink) 's Twitter Profile Photo

阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统:ViDoRAG,ViDoRAG在GPT-4o上准确率达到了 79.4%,比传统RAG提高了10%以上 它可以在一堆包含图片文档中找到,比如“这个产品的最高温度是多少?”或者“这篇文章主要讲了什么?”,

阿里巴巴通义实验室刚刚开源了一个面向视觉文档的RAG系统:ViDoRAG,ViDoRAG在GPT-4o上准确率达到了 79.4%,比传统RAG提高了10%以上

它可以在一堆包含图片文档中找到,比如“这个产品的最高温度是多少?”或者“这篇文章主要讲了什么?”,
小互 (@imxiaohu) 's Twitter Profile Photo

该模型可以用于: -给图片自动生成描述(Image Captioning) -回答“这张图是什么”的问题(VQA,视觉问答) -分析图中的数据或对象(图像识别) 能够兼容主流 LLM 并轻松适配 iOS/Mac 生态,特别适合落地在边缘设备、端侧 AI 应用和实时图文任务场景。 详细:xiaohu.ai/c/a066c4/fastv…

该模型可以用于:

-给图片自动生成描述(Image Captioning)
-回答“这张图是什么”的问题(VQA,视觉问答)
-分析图中的数据或对象(图像识别)

能够兼容主流 LLM 并轻松适配 iOS/Mac 生态,特别适合落地在边缘设备、端侧 AI 应用和实时图文任务场景。

详细:xiaohu.ai/c/a066c4/fastv…
Leonie (@helloiamleonie) 's Twitter Profile Photo

Level 1: Keyword-based retrieval Level 2: Semantic-based retrieval Level 3: Reasoning-based retrieval 𝗪𝗵𝗮𝘁 𝗶𝘀 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹?I It is the ability to find relevant information that requires logical thinking to connect your query

Level 1: Keyword-based retrieval
Level 2: Semantic-based retrieval
Level 3: Reasoning-based retrieval

𝗪𝗵𝗮𝘁 𝗶𝘀 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹?I
It is the ability to find relevant information that requires logical thinking to connect your query
Yangyi (@yangyixxxx) 's Twitter Profile Photo

都AI时代了 人们的脑海里第一件事居然还是:我要先做个产品,然后去卖! 做东西前要先找客户,不要做这做那的,就用AI获客!如果你一个客户都搞不来,你做出产品也不会有客户 1. 用AI生成服务描述,上架fiverr/upworks/闲鱼,记得写好用户寻找服务时的搜索词

Tony Wu (@tonywu_71) 's Twitter Profile Photo

🚀 ColQwen2 just dropped in Transformers! 🤗 Say goodbye to brittle OCR pipelines — now you can retrieve documents directly in the visual space with just a few lines of code. Perfect for your visual RAG workflows. Smarter, simpler, faster. Let's dive in! 👇 (1/N 🧵)

🚀 ColQwen2 just dropped in Transformers! 🤗

Say goodbye to brittle OCR pipelines — now you can retrieve documents directly in the visual space with just a few lines of code. Perfect for your visual RAG workflows.

Smarter, simpler, faster. Let's dive in! 👇 (1/N 🧵)
EC Elliot (@elliotchen100) 's Twitter Profile Photo

总结一波今年最好用的前端组件库,建议收藏,理论上前 3 个绝对够用了,其他的可以没事可以看看找找思路。 21st.dev:现代化的 React UI 组件库,注重极简设计和开发效率,适合快速搭建现代 Web 应用。 uiverse.io:开源 UI