(10分钟带你了解)日日夜夜影院电脑版v49.35.58.64.44.56.22.63-2265安卓网_新万博体育
日日夜夜影院 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件秒杀外挂太强了,异世界的家伙们根本就不是对手。 → 日日夜夜影院 v7.674.7078.521722 安卓最新版

日日夜夜影院

日日夜夜影院

  • 电脑版下载
猜你喜欢
标签: 日日夜夜影院 1024手机看片你懂
详情
介绍
猜你喜欢
相关版本

内容详情

日日夜夜影院

智东西作者 陈骏达编辑 云鹏

在大语言模型不断拉长上下文窗口的竞争中,DeepSeek刚刚提出了一条与众不同的技术路径。

智东西10月20日报道,今天上午,DeepSeek开源了DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。

当把等量的文本token转化为视觉token(图像)后,DeepSeek-OCR能用更少的token数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。

除此之外,DeepSeek-OCR还表现出很高的实际应用价值。在OmniDocBench上,它只使用100个视觉token就超越了GOT-OCR2.0(每页256个token),并且在使用少于800个视觉tokens的情况下,性能超过了MinerU2.0(平均每页近7000个token)。

在生产环境中,DeepSeek-OCR可以每天在单个A100-40G GPU上生成20万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。

目前,这一模型已在Hugging Face上开源,而介绍DeepSeek-OCR模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR团队称,他们此番开源的模型是对一种潜在解决方案的初步探索,即利用视觉模态作为文本信息的高效压缩媒介。

值得一提的是,与DeepSeek过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有3人,分别为Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR论文的第一作者Haoran Wei也是GOT-OCR2.0论文的第一作者,GOT-OCR2.0是阶跃星辰去年9月发布的一款OCR模型。

开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

论文链接:

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

一、光学压缩可实现高压缩比,解码到底需要多少视觉token?

过去几年,AI模型的上下文能力不断被拉长——从4K到128K,再到上百万token,但代价是成倍增加的算力与显存消耗。

但文本其实是一种冗余的信息形式。DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”

目前,业内已经在VLM视觉编码器和端到端OCR模型上有一定探索。基于此前的研究,DeepSeek-OCR团队发现了目前尚未解决的一个关键研究问题:对于包含1000个单词的文档,解码至少需要多少视觉token?这一问题对于研究“一图胜千言”的原则具有重要意义。

围绕这一问题,DeepSeek打造了一个验证系统——DeepSeek-OCR。该模型通过将文本“光学化”,把原本数千个文字token压缩成几百个视觉token,再由语言模型解码回原文。

DeepSeek-OCR的架构分为两部分。一是DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是DeepSeek3B-MoE,一个轻量级混合专家语言解码器。

DeepEncoder:显著压缩vision token数量

DeepEncoder采用SAM + CLIP的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的16×卷积压缩模块显著减少vision token数量。

举个例子,当输入1024×1024的文档图片时,传统视觉模型会生成4096个token,DeepEncoder能将其压缩至仅256个token,让激活内存的数量更可控。

此外,它支持多种“分辨率模式”。从轻量的Tiny(64 token)到高保真的Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。

论文展示了不同分辨率的压缩效果。对肉眼而言,Tiny模式下图片中的文字略显模糊,但基本能看清;而在高保真的Gundam模式下,图中文字的阅读体验基本和原文件的阅读体验没有差别。

▲实际阅读效果需参照原论文中的图片

在实际使用中,一页普通论文或幻灯片仅需100个视觉token即可精准识别;而密集文本的报纸或科学论文,则可通过Gundam模式实现高精度还原。

DeepSeek3B-MoE:激活参数仅5.7亿

在解码端,DeepSeek采用自研DeepSeek3B-MoE架构,推理时仅激活6个专家模块,总激活参数量约5.7亿。

这种“按需激活”的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档OCR、图文生成等场景。

数据引擎:从文档到图表、化学式、几何图

DeepSeek还搭建了一个庞大的数据数据集,包含四大数据类型:

(1)OCR 1.0数据:3000万页多语言文档与自然场景文字等;

(2)OCR 2.0数据:图表、化学公式、几何图形解析等;

(3)通用视觉数据:为模型注入基础图像理解能力;

(4)纯文本数据:维持语言流畅度与上下文建模。

得益于这一体系,DeepSeek-OCR不仅能识字、断句,还能看懂图表、解读化学式、识别几何图形,处理常见的图文交错文档。

二、10倍压缩效果几乎无损,数百token表示效果超7000 token

DeepSeek-OCR的训练流程整体上相对简洁,主要分为两个阶段:独立训练DeepEncoder和训练完整的 DeepSeek-OCR模型。

此外,所谓的“Gundam-master模式(超高分辨率)”是在预训练好的DeepSeek-OCR模型基础上,继续使用600万条采样数据进行微调得到的。由于其训练协议与其他模式相同,DeepSeek-OCR团队省略了详细描述。

DeepEncoder的训练遵循Vary的做法,使用一个轻量级语言模型,并基于下一token预测框架进行训练。在此阶段,模型使用了前述的OCR 1.0与OCR 2.0数据,以及从LAION 数据集中采样的1亿条通用图像数据。

当DeepEncoder训练完成后,DeepSeek-OCR团队使用多模态数据和纯文本数据,采用流水线并行策略来训练完整的模型。

为验证DeepSeek-OCR在文本密集型文档中的压缩与解压能力,研究团队选取了Fox基准进行实验。实验结果显示,在10×压缩率下,DeepSeek-OCR的解码精度可达约97%。这表明未来有望实现近乎无损的10×文本压缩。

当压缩率超过10×时,性能有所下降,主要原因包括文档版式复杂度的提升,以及长文本在512×512或640×640分辨率下出现模糊。前者可通过将文本渲染为统一版面解决,而后者则可能成为未来“遗忘机制”的研究特征。

即便在近20×压缩时,模型仍能保持约60%的精度。这些结果充分说明,光学上下文压缩是一条前景广阔的研究方向,且无需额外计算开销,因为多模态系统本身已具备视觉编码器结构。

除实验验证外,DeepSeek-OCR在实际场景中同样表现出不错的能力,可为LLM/VLM的预训练构建高质量数据。在OmniDocBench上,DeepSeek-OCR仅使用100个视觉toke(640×640 分辨率)的情况下,超越使用256个token的GOT-OCR 2.0。而在少于800个tokens(Gundam 模式)的条件下,DeepSeek-OCR甚至超越了需约7000个视觉token的MinerU 2.0。

进一步分析显示,不同类型文档对token数量的需求存在差异:幻灯片类文档仅需约64个视觉token即可获得良好效果;书籍与报告在100个视觉token下即可实现稳定性能;报纸类文档由于文本量庞大,需采用Gundam或Gundam-master模式才能实现可接受的效果。

三、从金融图表到化学表达式,各类文档均可深度解析

DeepSeek-OCR团队在论文中展示了DeepSeek-OCR在具体场景的能力。DeepSeek-OCR具备版面识别与OCR 2.0能力,可通过二次模型调用实现文档图像的进一步解析。DeepSeek将这一功能称为“深度解析(Deep Parsing)”。模型可在图像中识别不同类型的内容,包括图表、几何图形、化学结构式及自然图像等。

在金融研究报告中,DeepSeek-OCR能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。

在书籍与论文场景中,深度解析模式能够生成密集的图像描述,实现自动化的图文内容识别与转写。

对于化学文献,模型不仅可识别化学结构式,还能将其转化为SMILES格式,展现出在STEM(科学、技术、工程与数学)领域的潜在应用价值。

此外,DeepSeek-OCR还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。

互联网上的PDF数据涵盖多种语言,包括中文、英文以及大量多语种内容,这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR已具备处理近百种语言的OCR能力,支持带版面与非版面两种输出格式。

在多语言测试中,DeepSeek-OCR对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保DeepSeek-OCR能在多语言环境下稳定运行,为多语种文档解析与跨语言知识提取奠定基础。

除专注于文档解析外,DeepSeek-OCR还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行OCR识别任务。

此外,由于训练中融入了大量纯文本数据,DeepSeek-OCR也保留了较强的语言理解与生成能力。需要指出的是,DeepSeek-OCR尚未经过监督微调(SFT)阶段,因此并非对话模型,部分功能需通过特定提示词激活。

结语:高效信息表示或成大模型潜在优化方向

“上下文光学压缩”验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式,并通过更细粒度的“needle-in-a-haystack”测试评估光学压缩在真实长文本环境下的表现。

从行业视角看,DeepSeek-OCR展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少token数量,模型可以在相同算力下处理更长的上下文内容。这一思路为未来在VLM视觉token优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。

DeepSeek团队在论文最后写道:“光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。”这项从OCR任务出发的研究,或许已经超越了文字识别本身。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    色屁屁www免费视频在线观看 3358路yt最新版下载 洲在线综合视频 色无月婷婷网酒色网 mantahaya1777773维语 麻豆视频国产在线观看 亚洲欧美另类丝袜综合在线 海角黑料爆料18 白浆 青春草在线精品视频 A级无码午夜福利在线 动漫男性脱 给我揉 亲嘴网站 jojo同人漫画E站 大乔宝藏库 少年骇客黄漫 美女隐私秘 白丝网站 三级特黄性交大片 黄色A片视频网站免费看 美女网站免费观看视频一区二区 色色网www 国产精品美女91 可以免费在线观看的A片 黄色网络免费在线视频 思春期的性学习动漫 三级a∨在线播放 美乃雀 不卡在线观看A片 激情在线一区 97人洗澡从澡人人爽人人模 神木丽的封神三部曲 91看成品人视频免费观看国产完整中文版 97色伦综合在线欧美视频 se精品视频在线观看 亚洲  精品一区二区三区 在线亚洲字幕36页 在线视频 中文字幕 亚洲 三级片免费网站在线观看入口 欧美午夜一级看片 国产又粗又大又黄的视频 宝宝用点力c进去视频 亚洲色喜欢色色色 白咲花美化包免费下载 cos网站 成人,隐私视频 亚洲芒果伊甸园 十八禁含羞啪啪网站亚洲深夜 国产婬荡交换XXXⅩ性视频小说 91popny九色在线 操女人软件 91POPNY九色老熟女 cl1024达尔盖的旗帜2025 精品欧美一区二区视频 黄页视频网站大全 色色的视频免费的 久久久精品日本加勒比 久久久wwww 敖闰被X 欧洲熟妇色ⅩXXXX欧美老妇 2b尼尔触摸模拟器 视频在线播放免费aa 免费在线黄色网站在线观看 欧美一级婬片免费看 女大学生被c出水 国产同事露脸对白在线视频 野花视频免费观看高清在线观看6野狼网 欧美在线视频A片免费 视色 亚洲国模私拍人体GOGO图片 青草草在线观看视频 操 伊人大久久 综合五月婷婷 一区二区三区无码按摩精油 人人澡人人添人人爽 Xvi鈥哾e鈥唎鈥唖 欧美性爱群交视频 在线免费一级片 色就色综合 人人干,人人操,人人摸,人人看 免费无 欧美乱人伦三级 亚洲AV秘 无码猛男腹肌 中国体育生白袜出精 www. riben 欧美精品黑人巨大在线播放 性爱一级片 打扑视频网站60分钟潮入口 免费毛片在线播出 91视频二区 骇瓜被 国产无遮挡又黄又爽高潮久久久 海棠p18废文 三级国产性爱小视频 porono中国 免费性生活黄色网 被闺蜜玩哭h(百合、调教) 黑料网王 亚洲福利视频一区 小舞脱 让学生摸 黄瓜视频 就爱干人干人人操 被 到爽 流片自慰 九九热毛片 黑卡蒂挤牛奶的深层含义 国产AⅤ无码片毛片一级一区2 99操的在线视频 欧美三级片喷水视频 在线成年免费视频网站 fc2无码 美女啪啪又黄又免费 黄色网站在线免费在线免费观看 2021欧美A片ww 色喇叭国产精品 肥老太操逼视频 日本久久久久亚洲中文字幕 丝袜高跟熟女一区二区 国产自拍偷拍在线观看 99热这里只有精品官方网站 一级a爱做免费中文 538在线视频 人成毛片一区二区不卡 超碰天天爽人人爽人人爱
    热门网络工具