银河贵宾平台,独特的视觉设计与流畅的操作体验,让人爱不释手_新万博体育
银河贵宾平台 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件花间令 → 银河贵宾平台 v2.999.5881.45510 PC版

银河贵宾平台

银河贵宾平台

  • 电脑版下载
猜你喜欢
标签: 银河贵宾平台 玩什么游戏赚钱快
详情
介绍
猜你喜欢
相关版本

内容详情

银河贵宾平台

文 | X研究媛

DeepSeek OCR是一个不错的OCR小模型,但过誉了。

知乎网友指出,即使横向对比OCR最优秀的几个模型,它也不是最靠前的那个。

在下面两个案例里,3B大小(30亿参数)的DeepSeek OCR在数学公式展开里没有识别出“极坐标”,识别表格结构也是错的。相比之下,仅仅有0.9B(9亿参数)模型尺寸的PaddleOCR-VL(来自百度飞浆开源)却更胜一筹。

DeepSeek OCR也并非足够独创。外界猜测,谷歌Gemini 支持百万Token上下文可能早早使用了视觉压缩Token,同一天清华大学和智谱团队发布的、几乎同样思路「将长文本压缩为视觉Token作为模型输入」的Glyph,后者似乎没引发任何的「延伸解读」。

DeepSeek每一次出手都能虹吸巨大的关注。但仔细想想,也正常。

在中国做大了的互联网巨头,垄断了某个赚钱赛道后还怀揣着人类未来福祉去探索前沿技术的,几乎找不出一个范例。DeepSeek被美国同行形容为「实力深不可测」,其内禀的价值观、组织形态更是中国企业里罕见的异类。

梁文峰掌下的DeepSeek不怎么缺钱,浑身外溢着极致浪漫的技术理想主义。开源最前沿最有价值的模型训练细节,V3和R1引发全球轰动后几乎主动放弃巨大流量,也不去模仿OpenAI构建唾手可得的AI商业帝国...那种不按正常路径去「做大做强」,活在未来而非当下,一行一言去追逐高度不确定的AGI。在一个跟风、内卷、抄袭、金钱至上的中国,能诞生这样的公司,属实是“国运”。

外行看热闹,内行看Paper。言归正传,DeepSeek OCR的深层价值不是什么「真·无限上下文」,或者在各项评测集、各个大模型竞技场刷新了OCR模型的某个记录,而是探索「连续视觉表征压缩」在隐隐指向一个终极追求——「世界模型」。

Karpathy 评价里想说却未明说的:把大模型的前沿焦点从离散的语言Token,「重新转向」了连续视觉表征的视觉Token。

压缩即智能

如果把大脑看作一台生物计算机,Ilya说我们终将突破。人类思维最幽暗深微之处,也许出奇地「大道至简」。

Ilya有个信念,「如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。当你实现了信息高效压缩,you got to have some knowledge」。

压缩通过识别模式和规律高效表征信息,这与智能行为密切相关。有相当一部分研究人员认为,压缩可能是通用智能的基础,甚至可能等同于智能,Ilya所坚信的「压缩即智能」。

Ilya可能只说对了一半。相比语言这种一维的离散信息,语言的成功压缩诞生了轰动世界的ChatGPT。而视觉作为更高维的连续信息,端到端的压缩和统一表征提取,却异常困难。

如今强大无比的各类预训练大语言模型,它们在底层原理上高度统一:使用互联网上庞大语料训练出超大规模神经网络,它可以看作一大堆参数,当用户输入时,将激活固定的网络节点参数参与计算,从而「预测最大概率的输出Token」。具体过程中,用户的输入文本会被Tokenization固定划分的词和符号(即分词过程)转化为向量,这些输入向量会在超高维的向量空间去做模式匹配,即以激活的神经网络参数参与计算,计算出最高概率的下一个词。

LLM用大白话解释,就是根据模型参数和上下文去才猜下一个词。回顾大语言模型的发展,通用算法的发现,Transformer架构让Scaling变得真正可行,简单算法、超大数据、GPGPU算力的暴涨三者合力,成功地压缩互联网上几乎所有的文本资料,打造出一台非常智能的「Token预测器」。

LLM的输出是「Token by Token」,自回归方式,意味着每一个Token都要跟前文“交互”一次。输入十万个Token,模型就要进行十万·十万的百亿次“交互”计算。输入越长的上下文,预测下一个词就需要指数级的计算增长。

再大的显存带宽和显存容量,也无法一次吃掉计算过程中天量的中间矩阵,推理延迟会越来越大。LLM近年的创新,比如注意力层计算的稀疏和优化,诞生了MTP、NSA、DSA,还有稠密FFN层的稀疏激活,以及超大规模MoE专家网络的路由激活,本质都是在解决计算层面的问题。

以DeepSeek为例,除了R1以开源模型首次公开了预训练+后训练强化学习方法,复现了O1 推理思维链的效果引发轰动,其它几乎所有的创新都集中在改进注意力机制、激活参数计算和推理解码的高效,以及训练时如何降低硬件开销和提升数据通信可靠性。

DeepSeek OCR表面上是一个OCR模型,实际也是指向计算效率,尝试实现模型输入过长上下文的高效压缩。

DeepSeek OCR的核心是DeepEncoder,一个用vision tokens去Encode输入上下文信息的编码器,它实现了 9–10倍 文本压缩下 96%+ 的 OCR 解码精度,10–12倍压缩下约 90%的精度,20倍压缩下仍保持约 60% 的精度。

在压缩比10倍的时候,几乎可以做到无损。这意味着原来输入十万Token的模型上下文,视觉编码仅需一万Token。

而且,DeepSeek论文说我们可以连续调节压缩率,在压缩率和识别精度之间平滑地做出权衡。关键来了,DeepSeek将这种动态的视觉压缩还与人类的记忆遗忘做了类比。

DeepSeek提出一种类生物遗忘机制的压缩策略:

- 近期上下文:保持高分辨率,token 消耗高,信息清晰;

- 远期上下文:逐步降低分辨率,token 减少,信息模糊;

- 这种机制模拟人类记忆的自然衰减:

时间越久,记忆越模糊;

距离越远,视觉感知越弱;

两者都表现出渐进式信息丢失的模式(如图所示)

在论文里,DeepSeek 解释 OCR 的工作代表了对视觉-文本压缩边界的初步探索,研究了解码 N 个文本 token 需要多少个视觉 token这一核心问题。初步结果令人鼓舞:

光学上下文压缩不仅是技术可行的,更是生物学合理的。它为长上下文建模提供了全新视角。 DeepSeek相信,这一方向将成为未来 LLM 与 VLM 研究的重要突破口。

DeepSeek-OCR 在 约 10× 压缩比 下实现了接近无损的 OCR 压缩,在 20× 压缩比下,仍能保持 60% 的准确率,这些发现意味着:在多轮对话中,对超过 k 轮的历史记录进行光学处理,实现 10× 压缩效率;对旧上下文逐步缩小渲染图像,进一步减少 token 消耗; 模拟人类记忆的遗忘机制,越久远的内容,压缩率越高,图像越模糊,信息逐渐丢失。

在论文里,DeepSeek强调,光学上下文压缩仍然是一个刚刚起步、充满潜力的研究方向。DeepSeek-OCR 不仅仅是一个常用的优秀OCR工具,本身是一个极具实用价值的模型,具备大规模预训练数据生产能力,可作为 LLM 训练过程中不可或缺的助手。在实际应用中,该模型每天可生成数千万页级别的训练数据,显著提升了多模态数据构建的效率。

世界模型的「轮廓」

人脑若以“生物计算机”视角观察,可以粗略概括为:它以多模态、某种统一表征进行极为高效的信息压缩,实现对现实世界建模和预测。

LLM则是“通过语言单一模态对现实世界建模和预测”。

如果大语言模型能够导向AGI,等同于人类是通过语言理解一切,通过语言就可以建模世界?但这其中有一个明显Bug,人类并没有LLM Tokenization 这种「后天而非先验」的分词器,Karpathy形容Tokenization的过程是丑陋且笨拙。

用户的文本输入变成AI“可读”的内容,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token),比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!],四个词元。分词的标准并不是统一的,不同的词表和分词器也意味着各家模型不同的Tokenization方法,它对模型的最终性能有一定影响。

LLM文本输入转化为Token的分词过程是不是必不可少的? 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。而且不需要文本分词这个过程。

语言深度依赖视觉经验和多模态基础,文字本身是对感知世界的二次抽象。为什么我们的AI系统,要绕过更原始、更丰富的表征层?当模型直接在像素层面理解文字,它看到的不只是语言,而是习得了更加丰富、更加深层的学习机制。

就像前文所说,相比语言这样的一维离散信息,更高维且连续的视觉信息,端到端的信息压缩、统一表征提取和预测,困难且毫无进展。

三句不离世界模型的Yan LeCun,曾在公开访谈中谈及连续视觉信息的处理有多么困难:

“一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,总共大约是10的14次方字节,也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。

一个人要花几十万年才能读完这些材料,这是海量的信息。现在,我们来比较一下这个数据量:一个四岁的孩子总共清醒了 16000 个小时。每秒大约有 2 M字节信息通过我们的视神经进入我们的视觉皮层。每秒 2 M字节,在四年内,通过视觉输入大约是 10 的 14 次方字节的数据。四岁孩子”看到“的数据量与需要你 40 万年才能阅读的文本一样多。

这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这非常困难。如果我们不用单词,而是用视频中的帧,将这些帧转换成类似于单词的Token,然后尝试训练系统预测视频中将要发生的事情,这是行不通的。

我们可能无法预测某个特定单词会出现在文本的哪个位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上非常有效的技术,在视频或其他自然信号上却不起作用。”

回过头来看,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。它用实验数据证明了:AI的主要信息入口,可以从语言转向视觉,不仅效率更高,似乎更符合生物特性。

Karpathy还给出了一个关键洞察:

Vision→Text的任务空间,其实完全包含了Text→Text的任务空间,任何文本都可以无损“渲染”成图像。但反过来从图像到文本就会丢失大量信息。这种不对称暗示了一个激进的方向:把所有输入统一为视觉模态,输出保持文本不变。

这不仅仅是“文本到文本”任务变成了“视觉到文本”任务,这是一个更根本的转变。

如果输入端彻底转向像素,我们实际上构建的,不再是传统意义上的“大语言模型”,而是一个视觉条件下的文本生成系统。模型看到的,不再是固定划分的字符,而是更凌乱、更无序但信息更丰富的原始信号。沿着这条全新的发展道路,似乎远远能够望到世界模型的轮廓。

再看一遍 DeepSeek在OCR论文的总结,「这一范式将为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供全新的思路和广阔的研究空间」,措辞谨慎且谦虚。

DeepSeek值得尊敬。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    新蒲京娱乐网址 沙巴体育滚球水位 A网是不是网络正规平台 鸭脖网址 凯发下载 斗球体育app 爱游戏网址登录 天博下载网址 百姓彩神app ylg999 宝马会在哪开户 用哪个软件买世界杯球 世界杯都在哪里投注 葡京手机在线官网 凯时登录平台 线上网赌app排名 果博体育 ju1119 cc彩票平台官网 星速app下载安卓版 凯时k66平台 世界杯买球app不能买 伟德体育平台网址 最新线上平台 万博网页版max 365平台网址 沙巴app平台 世博体育官网登录平台 葡京正规网站吗 爱博体育官方 星际平台 泰国看世界杯网站 打钱的炸金花游戏 亚美app下载 新宝6注册线路 世界杯买球appab82婰net 2020欧洲杯赛程公布 球探体育网 奥门新匍京娱乐 开元app官方版最新下载 盛大客服 威尼斯人网站怎么样 新宝gg网站是多少 永利皇宫官方网址是多少 边峰游戏 威尼斯棋牌手机版 澳博投资官网 极速牛牛官网网址准 ku5app官网 爱游戏APP体育官方入口 欧宝体育官网入口 888真人网投 bck体育平台怎么样 好运来彩票最新地址 ag娱乐亚游 欧亚国际游戏网址 银河官网游戏下载手机版 乐鱼网投 世界杯赌球网站关闭 币博网站 bet36体育在线登录 完美体育365官网 波克捕鱼兑换码怎么搞 极速体育网站 鸭博体育APP 有没有捕鱼游戏可以金币兑现的 澳门皇冠官网在线观看 天博电子游戏app 必博体育官网登录入口 爱游戏在线登入 半岛游戏官方网站 欧宝在哪注册 六合财富B B体育合法吗 永利皇宫463手机网址 正规买球app排行十佳 杏彩平台手机版登录 M6米6体育app 正规的威尼斯人网 e世博注册彩金 合富辉煌 银河体育官网app js娱乐 必发娱乐手机版 6686体育app是正规吗 九游会下载地址 mg游戏哪个平台好 雷速体育篮球比分在线 韦德体育体育外围 杏彩体育注册登录 芒果体育网站进入 重庆分分彩彩网站 人人体育app网页版 Ag九游会登录 世界杯赌球去哪个网站 365体育网安卓版 官方在线赌场 吉祥斗地主手机版最新版 国际棋牌游戏平台真人 365bet体育官方平台 世界杯球盘怎么买 沙巴足球盘口 欧冠8分之一决赛赛程 888真人是怎么注册的 天博tb综合体育官方app下载 AG网络 必威官网 365体育平台网址 1分时时彩 bet9是九州吗 九游会手机版登陆 牛牛金花群 泛亚电竞不结算 世界杯买球app学fc3_tv 易升博体育买球官网 葡京开户网站 新万博mantbex官网 bob88体育平台登陆 MG真人体育平台 极速彩app
    热门网络工具