(3秒全面解析)日博体育开户登录鸿蒙版v66.83.61.81.33.04.9.29-2265安卓网_新万博体育
日博体育开户登录 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件陈丽君唱流行唱到怀疑自己 → 日博体育开户登录 v4.562 安卓免費版

日博体育开户登录

日博体育开户登录

  • 电脑版下载
猜你喜欢
标签: 日博体育开户登录 杏彩网页版注册
详情
介绍
猜你喜欢
相关版本

内容详情

日博体育开户登录

智东西作者 陈骏达编辑 云鹏

在大语言模型不断拉长上下文窗口的竞争中,DeepSeek刚刚提出了一条与众不同的技术路径。

智东西10月20日报道,今天上午,DeepSeek开源了DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。

当把等量的文本token转化为视觉token(图像)后,DeepSeek-OCR能用更少的token数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。

除此之外,DeepSeek-OCR还表现出很高的实际应用价值。在OmniDocBench上,它只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉tokens的情况下,性能超过了MinerU2.0(平均每页近7000个token)。

在生产环境中,DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。

目前,这一模型已在Hugging Face上开源,而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队称,他们此番开源的模型是对一种潜在解决方案的初步探索,即利用视觉模态作为文本信息的高效压缩媒介。

值得一提的是,与DeepSeek过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有3人,分别为Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR论文的第一作者Haoran Wei也是GOT-OCR2.0论文的第一作者,GOT-OCR2.0是阶跃星辰去年9月发布的一款OCR模型。

开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

论文链接:

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

一、光学压缩可实现高压缩比,解码到底需要多少视觉token?

过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。

但文本其实是一种冗余的信息形式。DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”

目前,业内已经在VLM视觉编码器和端到端OCR模型上有一定探索。基于此前的研究,DeepSeek-OCR团队发现了目前尚未解决的一个关键研究问题:对于包含1000个单词的文档,解码至少需要多少视觉token?这一问题对于研究“一图胜千言”的原则具有重要意义。

围绕这一问题,DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”,把原本数千个文字token压缩成几百个视觉token,再由语言模型解码回原文。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。

DeepEncoder:显著压缩vision token数量

DeepEncoder采用SAM + CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的16×卷积压缩模块显著减少vision token数量。

举个例子,当输入1024×1024的文档图片时,传统视觉模型会生成4096个token,DeepEncoder能将其压缩至仅256个token,让激活内存的数量更可控。

此外,它支持多种“分辨率模式”。从轻量的Tiny(64 token)到高保真的Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。

论文展示了不同分辨率的压缩效果。对肉眼而言,Tiny模式下图片中的文字略显模糊,但基本能看清;而在高保真的Gundam模式下,图中文字的阅读体验基本和原文件的阅读体验没有差别。

▲实际阅读效果需参照原论文中的图片

在实际使用中,一页普通论文或幻灯片仅需100个视觉token即可精准识别;而密集文本的报纸或科学论文,则可通过Gundam模式实现高精度还原。

DeepSeek3B-MoE:激活参数仅5.7亿

在解码端,DeepSeek采用自研DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。

这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。

数据引擎:从文档到图表、化学式、几何图

DeepSeek还搭建了一个庞大的数据数据集,包含四大数据类型:

(1)OCR 1.0数据:3000万页多语言文档与自然场景文字等;

(2)OCR 2.0数据:图表、化学公式、几何图形解析等;

(3)通用视觉数据:为模型注入基础图像理解能力;

(4)纯文本数据:维持语言流畅度与上下文建模。

得益于这一体系,DeepSeek-OCR不仅能识字、断句,还能看懂图表、解读化学式、识别几何图形,处理常见的图文交错文档。

二、10倍压缩效果几乎无损,数百token表示效果超7000 token

DeepSeek-OCR的训练流程整体上相对简洁,主要分为两个阶段:独立训练DeepEncoder和训练完整的 DeepSeek-OCR模型。

此外,所谓的“Gundam-master模式(超高分辨率)”是在预训练好的DeepSeek-OCR模型基础上,继续使用600万条采样数据进行微调得到的。由于其训练协议与其他模式相同,DeepSeek-OCR团队省略了详细描述。

DeepEncoder的训练遵循Vary的做法,使用一个轻量级语言模型,并基于下一token预测框架进行训练。在此阶段,模型使用了前述的OCR 1.0与OCR 2.0数据,以及从LAION 数据集中采样的1亿条通用图像数据。

当DeepEncoder训练完成后,DeepSeek-OCR团队使用多模态数据和纯文本数据,采用流水线并行策略来训练完整的模型。

为验证DeepSeek-OCR在文本密集型文档中的压缩与解压能力,研究团队选取了Fox基准进行实验。实验结果显示,在10×压缩率下,DeepSeek-OCR的解码精度可达约97%。这表明未来有望实现近乎无损的10×文本压缩。

当压缩率超过10×时,性能有所下降,主要原因包括文档版式复杂度的提升,以及长文本在512×512或640×640分辨率下出现模糊。前者可通过将文本渲染为统一版面解决,而后者则可能成为未来“遗忘机制”的研究特征。

即便在近20×压缩时,模型仍能保持约60%的精度。这些结果充分说明,光学上下文压缩是一条前景广阔的研究方向,且无需额外计算开销,因为多模态系统本身已具备视觉编码器结构。

除实验验证外,DeepSeek-OCR在实际场景中同样表现出不错的能力,可为LLM/VLM的预训练构建高质量数据。在OmniDocBench上,DeepSeek-OCR仅使用100个视觉toke(640×640 分辨率)的情况下,超越使用256个token的GOT-OCR 2.0。而在少于800个tokens(Gundam 模式)的条件下,DeepSeek-OCR甚至超越了需约7000个视觉token的MinerU 2.0。

进一步分析显示,不同类型文档对token数量的需求存在差异:幻灯片类文档仅需约64个视觉token即可获得良好效果;书籍与报告在100个视觉token下即可实现稳定性能;报纸类文档由于文本量庞大,需采用Gundam或Gundam-master模式才能实现可接受的效果。

三、从金融图表到化学表达式,各类文档均可深度解析

DeepSeek-OCR团队在论文中展示了DeepSeek-OCR在具体场景的能力。DeepSeek-OCR具备版面识别与OCR 2.0能力,可通过二次模型调用实现文档图像的进一步解析。DeepSeek将这一功能称为“深度解析(Deep Parsing)”。模型可在图像中识别不同类型的内容,包括图表、几何图形、化学结构式及自然图像等。

在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。

在书籍与论文场景中,深度解析模式能够生成密集的图像描述,实现自动化的图文内容识别与转写。

对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM(科学、技术、工程与数学)领域的潜在应用价值。

此外,DeepSeek-OCR还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。

互联网上的PDF数据涵盖多种语言,包括中文、英文以及大量多语种内容,这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR已具备处理近百种语言的OCR能力,支持带版面与非版面两种输出格式。

在多语言测试中,DeepSeek-OCR对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保DeepSeek-OCR能在多语言环境下稳定运行,为多语种文档解析与跨语言知识提取奠定基础。

除专注于文档解析外,DeepSeek-OCR还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行OCR识别任务。

此外,由于训练中融入了大量纯文本数据,DeepSeek-OCR也保留了较强的语言理解与生成能力。需要指出的是,DeepSeek-OCR尚未经过监督微调(SFT)阶段,因此并非对话模型,部分功能需通过特定提示词激活。

结语:高效信息表示或成大模型潜在优化方向

“上下文光学压缩”验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式,并通过更细粒度的“needle-in-a-haystack”测试评估光学压缩在真实长文本环境下的表现。

从行业视角看,DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少token数量,模型可以在相同算力下处理更长的上下文内容。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。

DeepSeek团队在论文最后写道:“光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。”这项从OCR任务出发的研究,或许已经超越了文字识别本身。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    威尼斯人官方网站体育网站 银河手机注册 日博体育在线登录 飞仙传 凯发k8唯一 贝博手机版 免费送体验金的网站 奥门新甫京娱乐 新万博manbetx官网 凯时旗舰厅注册登录 葡京游戏平台登录 梅高美最新下载地址 华体会体育APP 杏彩官网下载安装 美高梅注册送18 am8 火狐体育APP下载 皇冠体育足球比分 赢钱的手机游戏 澳门金沙app下载 bwin苹果版 环球竞彩官网 开云在线官网 真人AG账号回收 AG哪个平台最正规平台 亚娱可靠吗 鹿鼎彩票注册 大游官网 888真人登录官网 篮球世界杯去哪里投注 高爆pg电子网站推荐 ayx体育 必威苹果客户端下载安装 九游会ag亚洲 网上怎么赚零花钱 9州体育官网 足球官方发布平台 威尼斯电子游戏手机官网 365bet体育客户端官方下载 ayx爱游戏平台官网 曾道人点特玄机 贝博可靠吗 百乐门游戏大厅 热血无赖打麻将 在线真人国际 泛亚电竞手机端 凯时网站是多少 手机如何玩彩票 云顶娱乐官方网站登录入口 果博东方官网 雷火电竞网站 葡京官方app下载安装 澳门银银河网 银河在线买球 万博登录界面在哪 百家乐入口 必威官方备用网址 edf138开户 天博体育官网地址查询 天博体育外围 云顶娱乐官方网站登录 可以购买世界杯的app 新利18体育娱乐在线 打鱼可下分 必赢网站是什么 博体即时比分 世界杯买球app进bs18殿me 雷竞技新官网登录 星速app下载安卓苹果 韦德体育怎么开户 AG真人游戏平台 ca88怎么样 皇冠hg8868 九州备用网址导航 亿万网 捕鱼官方推荐 im体育平台的网站 云顶国际世界杯买球 188体育在线网站 宝马线上娱城 365bet地址知道 银河登入游戏 炸金花游戏币版本 美高梅国际网站 捕鱼大师稳赢版苹果版下载 有什么斗牛棋牌能赚钱 星际注册 乐鱼在线试玩 和记娱乐快速登陆 完美365体育app下载安装 澳门永利手机博彩 亚博入口登录 pg电子游戏app 天美棋牌平台官网 澳门皇冠app下载 九州在哪玩 手机万博登录 银河国际真人娱乐 mg网站 凤凰彩票平台注册 爱游戏竞彩官网 蜗牛报 泰达足球 必威手机登陆界面 必威登录不了 贝搏体育 世界杯网站cctv5 澳门永利皇宫游乐场网址 365bet那个是真的 乐鱼全站网站登录首页 凯发娱乐网站app下载 诺亚体育官网网址 188金宝搏安全吗 申博官网开户注册 理想型世界杯游戏网站 金沙澳门s6221com 12bet官网注册 捕鱼达人官方版新版 九卅娱乐10年玩家信誉首选 亚新全站APP
    热门网络工具