猫眼电影
猫眼电影记者 马骏飞 报道Q8X2R7L1T4J5M9B6W3
智东西作者 陈骏达编辑 云鹏
在大语言模型不断拉长上下文窗口的竞争中,DeepSeek刚刚提出了一条与众不同的技术路径。
智东西10月20日报道,今天上午,DeepSeek开源了DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。
这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。
当把等量的文本token转化为视觉token(图像)后,DeepSeek-OCR能用更少的token数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。
除此之外,DeepSeek-OCR还表现出很高的实际应用价值。在OmniDocBench上,它只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉tokens的情况下,性能超过了MinerU2.0(平均每页近7000个token)。
在生产环境中,DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。
目前,这一模型已在Hugging Face上开源,而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队称,他们此番开源的模型是对一种潜在解决方案的初步探索,即利用视觉模态作为文本信息的高效压缩媒介。
值得一提的是,与DeepSeek过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有3人,分别为Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR论文的第一作者Haoran Wei也是GOT-OCR2.0论文的第一作者,GOT-OCR2.0是阶跃星辰去年9月发布的一款OCR模型。
开源地址:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
论文链接:
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
一、光学压缩可实现高压缩比,解码到底需要多少视觉token?
过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。
但文本其实是一种冗余的信息形式。DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”
目前,业内已经在VLM视觉编码器和端到端OCR模型上有一定探索。基于此前的研究,DeepSeek-OCR团队发现了目前尚未解决的一个关键研究问题:对于包含1000个单词的文档,解码至少需要多少视觉token?这一问题对于研究“一图胜千言”的原则具有重要意义。
围绕这一问题,DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”,把原本数千个文字token压缩成几百个视觉token,再由语言模型解码回原文。
DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。
DeepEncoder:显著压缩vision token数量
DeepEncoder采用SAM + CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的16×卷积压缩模块显著减少vision token数量。
举个例子,当输入1024×1024的文档图片时,传统视觉模型会生成4096个token,DeepEncoder能将其压缩至仅256个token,让激活内存的数量更可控。
此外,它支持多种“分辨率模式”。从轻量的Tiny(64 token)到高保真的Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。
论文展示了不同分辨率的压缩效果。对肉眼而言,Tiny模式下图片中的文字略显模糊,但基本能看清;而在高保真的Gundam模式下,图中文字的阅读体验基本和原文件的阅读体验没有差别。
▲实际阅读效果需参照原论文中的图片
在实际使用中,一页普通论文或幻灯片仅需100个视觉token即可精准识别;而密集文本的报纸或科学论文,则可通过Gundam模式实现高精度还原。
DeepSeek3B-MoE:激活参数仅5.7亿
在解码端,DeepSeek采用自研DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。
这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。
数据引擎:从文档到图表、化学式、几何图
DeepSeek还搭建了一个庞大的数据数据集,包含四大数据类型:
(1)OCR 1.0数据:3000万页多语言文档与自然场景文字等;
(2)OCR 2.0数据:图表、化学公式、几何图形解析等;
(3)通用视觉数据:为模型注入基础图像理解能力;
(4)纯文本数据:维持语言流畅度与上下文建模。
得益于这一体系,DeepSeek-OCR不仅能识字、断句,还能看懂图表、解读化学式、识别几何图形,处理常见的图文交错文档。
二、10倍压缩效果几乎无损,数百token表示效果超7000 token
DeepSeek-OCR的训练流程整体上相对简洁,主要分为两个阶段:独立训练DeepEncoder和训练完整的 DeepSeek-OCR模型。
此外,所谓的“Gundam-master模式(超高分辨率)”是在预训练好的DeepSeek-OCR模型基础上,继续使用600万条采样数据进行微调得到的。由于其训练协议与其他模式相同,DeepSeek-OCR团队省略了详细描述。
DeepEncoder的训练遵循Vary的做法,使用一个轻量级语言模型,并基于下一token预测框架进行训练。在此阶段,模型使用了前述的OCR 1.0与OCR 2.0数据,以及从LAION 数据集中采样的1亿条通用图像数据。
当DeepEncoder训练完成后,DeepSeek-OCR团队使用多模态数据和纯文本数据,采用流水线并行策略来训练完整的模型。
为验证DeepSeek-OCR在文本密集型文档中的压缩与解压能力,研究团队选取了Fox基准进行实验。实验结果显示,在10×压缩率下,DeepSeek-OCR的解码精度可达约97%。这表明未来有望实现近乎无损的10×文本压缩。
当压缩率超过10×时,性能有所下降,主要原因包括文档版式复杂度的提升,以及长文本在512×512或640×640分辨率下出现模糊。前者可通过将文本渲染为统一版面解决,而后者则可能成为未来“遗忘机制”的研究特征。
即便在近20×压缩时,模型仍能保持约60%的精度。这些结果充分说明,光学上下文压缩是一条前景广阔的研究方向,且无需额外计算开销,因为多模态系统本身已具备视觉编码器结构。
除实验验证外,DeepSeek-OCR在实际场景中同样表现出不错的能力,可为LLM/VLM的预训练构建高质量数据。在OmniDocBench上,DeepSeek-OCR仅使用100个视觉toke(640×640 分辨率)的情况下,超越使用256个token的GOT-OCR 2.0。而在少于800个tokens(Gundam 模式)的条件下,DeepSeek-OCR甚至超越了需约7000个视觉token的MinerU 2.0。
进一步分析显示,不同类型文档对token数量的需求存在差异:幻灯片类文档仅需约64个视觉token即可获得良好效果;书籍与报告在100个视觉token下即可实现稳定性能;报纸类文档由于文本量庞大,需采用Gundam或Gundam-master模式才能实现可接受的效果。
三、从金融图表到化学表达式,各类文档均可深度解析
DeepSeek-OCR团队在论文中展示了DeepSeek-OCR在具体场景的能力。DeepSeek-OCR具备版面识别与OCR 2.0能力,可通过二次模型调用实现文档图像的进一步解析。DeepSeek将这一功能称为“深度解析(Deep Parsing)”。模型可在图像中识别不同类型的内容,包括图表、几何图形、化学结构式及自然图像等。
在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。
在书籍与论文场景中,深度解析模式能够生成密集的图像描述,实现自动化的图文内容识别与转写。
对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM(科学、技术、工程与数学)领域的潜在应用价值。
此外,DeepSeek-OCR还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。
互联网上的PDF数据涵盖多种语言,包括中文、英文以及大量多语种内容,这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR已具备处理近百种语言的OCR能力,支持带版面与非版面两种输出格式。
在多语言测试中,DeepSeek-OCR对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保DeepSeek-OCR能在多语言环境下稳定运行,为多语种文档解析与跨语言知识提取奠定基础。
除专注于文档解析外,DeepSeek-OCR还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行OCR识别任务。
此外,由于训练中融入了大量纯文本数据,DeepSeek-OCR也保留了较强的语言理解与生成能力。需要指出的是,DeepSeek-OCR尚未经过监督微调(SFT)阶段,因此并非对话模型,部分功能需通过特定提示词激活。
结语:高效信息表示或成大模型潜在优化方向
“上下文光学压缩”验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式,并通过更细粒度的“needle-in-a-haystack”测试评估光学压缩在真实长文本环境下的表现。
从行业视角看,DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少token数量,模型可以在相同算力下处理更长的上下文内容。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。
DeepSeek团队在论文最后写道:“光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。”这项从OCR任务出发的研究,或许已经超越了文字识别本身。
??时事1:好多水不能进来了太深91视在线看
??10月20日,冰雪春天|踏雪行,
可是穿山甲真的太强大了,怎么可能容易对付?张口一啸,符文漫天,金色骨剪旋转,再次剪来。
,av天堂综合。??10月20日,海内外跑酷达人湖南张家界“天梯”炫技,
“小兄弟要走出这大荒啊,不能一辈子闷在山中,外面的世界很精彩,而我族有至强宝术可让你一跃冲天。”
,欧美另类交视频,亚洲A∨理论片,欧美一级爽快片婬片在线观看。??时事2:91空姐光胸洗澡被91看
??10月20日,联合国官员:冀更多中国供应商参与联合国采购,
2、与人为善, 和睦相处。各班班主任要教育学生以友好相处为重点。同学之间发生矛盾是难免的,我们要多作自我批评,并主动找老师妥善处理;任何人不得找外人到校滋事,加深矛盾;不与社会上的不良少年交往;禁止攀爬楼梯栏杆;严禁在教室和楼道内追逐、跑跳、打闹;上下楼梯要靠右行,不拥挤、争抢;双休日和节假日禁止结伙闲逛,惹事生非;不得进入网吧;夜晚一般不单独外出活动。严禁携带管制刀具、有伤害他人的一切工具进入校园。禁止玩耍有危害性的玩具,如小枪、鞭炮、弹弓等。
,日韩a毛片线观看午夜,国产激情小视频在线播放下载,亚洲一级黄片D∨D。??10月20日,第十五届中国航展:中国兵器馆人气旺,
京东白条是京东推出的一种消费信贷产品,为用户提供了方便快捷的购物方式。然而,随着人们对京东白条的使用越来越频繁,也有一些用户因各种原因导致逾期还款。那么,京东白条逾期多久会被催收呢?逾期会上信用名单吗?逾期了又该如何处理呢?下面我们将一一解答这些问题。
一、京东白条逾期多久会被催收
一般逾期就会被催收。
具体的逾期催收时间可能因京东白条的政策和个人合同约定而有所不同。京东的催收方式可能包括电话通知、短信提醒和逾期通知函件等。他们可能会要求您解释逾期原因、制定还款计划,并采取其他适当的催收手段。
如果您长时间没有还款或未与京东达成合理的还款安排,催收行为可能进一步升级,包括但不限于:加收逾期利息、滞纳金;将逾期记录报送信用机构;采取法律诉讼等措施追讨债务。

二、京东白条逾期会上信用名单吗
逾期后一个月内上信用。
京东白条逾期后,根据京东白条的政策,一般情况下借款人在逾期后一个月内未能还款,可能会被列入信用黑名单或不良信用记录。
被列入信用黑名单或不良信用记录可能会对个人信用产生负面影响。银行、金融机构和其他债权人通常会参考个人的信用记录来评估其信用风险和还款能力。因此,有不良信用记录可能会给借款人在未来申请贷款、信用卡或其他金融服务时带来困扰。
三、京东白条逾期了怎么办呢
首先,用户应该尽快与京东白条客服**,说明自己的情况,并提出还款计划。京东白条客服会根据用户的情况给予相应的帮助和建议。其次,用户可以考虑向亲朋好友借款,或者通过其他途径筹集资金,尽快还清欠款。如果用户确实无法一次性还清欠款,可以与京东白条协商分期还款的方式,以减轻还款压力。
此外,用户还应该注意保护个人信用,避免再次逾期。可以通过合理规划消费,避免超出自己的还款能力。同时,建议用户在使用京东白条之前,要充分了解相关规定和费用,确保自己能够按时还款。
?开学学校领导讲话(通用34篇),黄色视频视频视视视视视视视视视,国产夜色快憣免费完整片,98人cao。??时事3:国产城中村嫖妓精品视频下载
??10月20日,六盘山下“江南织造”编织发展新动能,
小石昊闻言点头,道:“可能是饿坏了,它被封在那个湖底一年多,不吃不喝,这是在恢复元气呢。”
,www.yazhouaiai.com,黄色p网站应聘,永久w75w93乳液真的不错。??10月20日,广东建立健全耕地保护“三位一体” 补偿激励机制,
“切,都是庸才,上次还说是什么了不得的天才呢,还不是被我们击败,要不是他骑着火麒逃进了火焰洞中,非抓回来不可。”一个少年反驳。
,黄色链接在线观看,igao在线视频社区,得意客工作室网址。??时事4:原耽嗯啊 摸 湿
??10月20日,首届沪港文化学术论坛在沪举行,
他们骑着独角兽,闯入下方,刚一临近村子就闻到了一股刺鼻的血腥味,向前走去,眼见所见,惨不忍睹。
,1 2 3 4欧美性爱,9.1人网站 免费,91大神啪啪视频。??10月20日,新疆兵团企业加速忙生产 节水技术国内外已累计推广应用1亿多亩,
等石昊再次醒来时,已经过去了一天一夜,伤口被处理好,已然结疤。而对于狈村那些人的追杀也结束了,全部斩了个干净。这次石村铁血出击,出手无情,那批人一个都没有放过,一百多颗人头堆在一起很可怕,另有一部分人未容动手就已先葬入了兽腹中。
,嫩草影院入口,黄人人干操,′美女h裸体。责编:刘红将
审核:凯宾斯基
责编:施为华












