外汇学堂

DeepSeek发布多模态论文又连夜删除，主要透露了啥？

发布时间：2026-05-03 00:45:20 来源: xmhey

　　在节假日前一天发布重磅论文，“这很DeepSeek”。

　　DeepSeek终于能“看见”了。前两天，DeepSeek偷偷开启了多模态能力的灰度测试，部分用户打开DeepSeek首页会发现，界面多了一个“识图模式”的入口。上传图片后，DeepSeek能像人一样理解画面了。

　　DeepSeek多模态团队负责人陈小康在4月29日发文称，“现在，我们能看见你了。”这是DeepSeek的聊天产品第一次接入多模态。

　　就在4月30日，DeepSeek又发布了一篇关于多模态技术报告《Thinking with Visaul Primitives》（《用视觉原语思考》），阐释了这次上新的多模态技术背后的细节。

　　在五一节假日前一天发布重磅论文，“这很DeepSeek”。但很快大家发现，官方连夜删除了多模态仓库和论文原文，5月1日打开Github界面已经是“404”状态。

　　关于删除原因官方并没有特别说明，不过有猜测不是内容问题，而是信息透露太多。

　　这次的论文说了些啥？从行业反馈来看，论文符合DeepSeek扎实且务实的风格，同样在通过工程能力降低成本，采用了新的范式，也意味着，DeepSeek开始在视觉模型上发力了。

　　具体来看，DeepSeek的论文指出，目前的多模态模型在复杂任务上崩溃，不是因为看不见（感知鸿沟），而在于“指不准”（引用鸿沟）。

　　自然语言天然具有模糊性。当用户要求模型处理复杂的空间布局时，仅靠文字描述很容易产生歧义。就像数一堆散落的硬币，如果不用手指逐个按着确认，人类也很容易数错或数重。

　　DeepSeek的解法是给模型配上一只“手指”。通过引入“视觉原语”（Visual Primitives）框架，模型将点、边界框等空间标记提升为最小思维单元。这意味着模型在推理时，能够一边“想”一边“指”，将抽象的语言逻辑指向到具体空间坐标。

　　这一灵感借鉴了人类的认知。论文提及，人类走迷宫或数密集物体时，会用手指这类指示性指向来降低认知负荷、维持逻辑一致性。通过将视觉原语嵌入思考，模型可以模拟人类这种“指向-推理”的协同。

　　这一模型基于DeepSeek-V4-Flash（总参数2840亿）构建。DeepSeek的大量实验表明，该方法在推理精度上实现显著突破，在空间推理、视觉问答等挑战性任务上，性能持平或超越 GPT、Claude、Gemini 最新版本。

　　DeepSeek的研究证明：多模态智能的未来，不只是 “看见更多像素”，而是构建语言与视觉之间精准、无歧义的指代桥梁。

　　值得一提的是，DeepSeek在4月24日发布了V4系列旗舰模型，这次发布并没有涉及传言已久的多模态。官方当时对V4的定义是：支持百万字超长上下文，在 Agent（智能体）能力、世界知识和推理性能上均实现国内与开源领域的领先。

　　多模态已经成为当前大模型更新的一个重要方向，而DeepSeek在这一方面却迟迟未跟上，这也被认为是DeepSeek能力上的一大短板。也有传言称，DeepSeek暂缓多模态生成的训练策略，主要源于算力和现金的掣肘，在融资后，或许这一方向的训练会更加顺利。

本文地址: https://www.xmhey.com/news/654387.html ，转载请注明出处。