永利登入视讯

电脑版下载

95937
2

永利登入视讯截图Q8X2R7L1T4J5M9B6W3

内容详情

永利登入视讯

本文来自微信公众号：划重点KeyPoints，作者：林易，编辑：重点君，题图来自：AI生成

11月19日，谷歌发布Gemini 3模型。DeepMind首席执行官戴米斯·哈萨比斯（Demis Hassabis）和Gemini团队负责人乔希·伍德沃德（Josh Woodward）联合接受专访。

此次升级，Gemini 3开始具备生成界面（Generative UI）的能力。当用户查询梵高生平时，它能即时构建一个包含图片和时间线的交互式页面；当涉及复杂计算时，它能直接生成一个定制化的房贷计算器。

这种从回答问题向构建应用的跃迁，标志着大模型应用正在跨越单纯的对话框，进入动态软件生成的阶段。

Gemini 3模型推理能力显著增强。根据伍德沃德的说法，前代模型常在第5、6步推理时丢失思路，而 Gemini 3能在复杂的税务规划或长代码调试中维持10到15步的连贯逻辑，大幅提升了在处理复杂任务时的可靠性。

在被称作“人类终极考试”（Humanity's Last Exam）的跨学科博士级难题集考试中，Gemini 3pro的得分从前代Gemini 2.5Pro的21.6%大幅上升至37.5%，远超GPT-5.1的26.5%。在SimpleQA Verified测试中，Gemini 3pro达到了72.1%的准确率，相较GPT-5.1和Claude Sonnet 4.5提升了超1倍，大幅减少此前模型常见的幻觉现象。

此次最具突破性的升级出现在视觉智能领域。Gemini 3 Pro在一项专门针对屏幕理解和UI交互的ScreenSpot-Pro 测试中，取得了72.7%的高分，几乎是GPT-5.1性能的20倍。这意味着AI Agent能够区分按钮、菜单、文本和上下文，而不仅仅是识别图像中的物体，为AI Agent实现更高级的自动化操作电脑提供了基础，大幅提升了模型作为数字工作代理的实用性。

在衡量Web开发能力的WebDev Arena排行榜上，Gemini 3拿下了1487 Elo的高分。伴随Gemini 3发布，谷歌推出了全新的代理开发平台“Google Antigravity”，由Gemini 3作为“智能代理”去调用工具、编写接口、调试Bug，配合Vibe Coding的全新能力，用户只需用自然语言描述需求，模型即可生成功能完整且设计美观的代码。

谷歌在战略定位上表现得极为克制，拒绝了当下热门的情感陪伴领域，将Gemini定义为提升生产力的超级工具。其内部考核指标不是用户粘性或情感依赖，而是今天帮用户完成了多少项任务。在Gemini Agent的早期演示中：模型不仅能理解邮件语境，还能深度接入用户邮箱，自动归类并拟定回复，甚至帮助用户彻底清空收件箱。从单纯助手进化为能够独立工作的智能同事。

以下为访谈实录：

罗兹：凯西，我们今天临时加播一期特别节目，主题是Gemini 3的发布。

牛顿：是的，凯文。这款模型在硅谷AI圈子里期待已久，我们终于要亲手体验真正的成品了。

罗兹：我们之所以打破常规周五发布节奏，专门录制这一期，主要有两个原因。首先，我们获得了与谷歌两位AI核心负责人（DeepMind首席执行官哈萨比斯和Gemini团队副总裁伍德沃德）的专访机会。

其次，Gemini 3的发布引发了业界强烈关注。我们听到多个实验室的内部消息称，这款模型在某些关键领域实现了突破，可能对竞争对手构成实质性威胁。过去两年，谷歌曾被视为追赶者，如今的问题是：他们是否已重返领跑位置？

牛顿：在正式进入访谈之前，我们先简要介绍已知信息。谷歌在发布前举行了闭门简报会，Gemini 3最引人注目的新能力包括：大幅提升的编码与“氛围编码”能力；以及全新的交互界面生成功能。

它不再仅输出文字，而是直接为用户生成定制化的交互界面。例如，用户询问梵高生平时，模型会即时生成一个包含图片、时间线和交互元素的完整学习页面；又如生成百万美元以上房产的按揭计算器。这些功能标志着从“回答问题”向“构建体验”的跃迁。

罗兹：在所有公开基准测试中，Gemini 3均大幅超越Gemini 2.5 Pro。例如，在被称作“人类终极考试”（Humanity's Last Exam）这一跨学科博士级难题集上，Gemini 2.5 Pro得分仅21.6%，Gemini 3直接提升至37.5%。谷歌的总体表态是：任何你能在ChatGPT、Claude或其他旧版Gemini上完成的任务，在Gemini 3上都能做得更好。

牛顿：他们还展示了Gemini Agent的早期演示：模型可深度接入用户邮箱，理解全部邮件内容，自动归类、拟定回复，甚至帮助用户彻底清空收件箱。

此外，本周起Gemini 3将登陆Gemini App和谷歌搜索的AI Mode；美国大学生将获一年免费高级版访问权限。谷歌反复强调的关键词是“Learn Anything”（学习任何事物），这实际上是将Gemini定位为终极个性化教育工具。

罗兹：德米斯、乔希，欢迎来到《Hard Fork》。两年前，桑达尔·皮查伊（Sundar Pichai）把Bard比作“一辆改装后的本田思域”，在与更强劲对手的赛道上竞速。那么，Gemini 3是一辆什么车？

哈萨比斯：我希望它比本田思域快得多。我不太习惯用汽车来比喻，或许更像一辆专业的拖曳赛车（Drag Racer）。它不是为日常驾驶或环形赛道设计的，它拥有纯粹的、为某一特定目标所凝聚的巨大力量。它代表着我们最顶尖的研究成果与规模化算力的完美结合，目标就是要在智能前沿的这场竞赛中，展现出无与伦比的瞬间爆发力。

罗兹：这很有趣。相比以往所有AI模型，Gemini 3在具体层面上究竟能做什么全新的事情？请给我们一些量化、实际的例子。

伍德沃德：有三点最为突出。第一，在多步推理上，它能同时思考新万博体育：步骤，我们将其可靠性提升到了一个全新的层次。前代模型常在进行到第5、6步复杂的逻辑推导时“丢失思路”或产生幻觉，而Gemini 3能可靠地完成10到15步的连贯推理任务，例如复杂税务规划、跨国差旅的整体规划与预订，或是对一个拥有数百万行代码的庞大系统进行全面调试。

其次，它将首次大规模生成全新交互界面。用户需求的不再是简单的文字回答，而是定制化的软件组件。比如你问它：“帮我设计一个可以追踪我所有投资组合的仪表板”，它会实时生成一个交互式的、可操作的仪表盘界面，而不是一堆描述如何制作仪表盘的文字。

第三，我们在编码能力上投入巨大资源，尤其是前端与“氛围编码”，这意味着它可以根据自然语言的提示来生成功能完整、设计优美的用户界面代码。即将推出的Google Antigravity等新产品也将充分展示这一点，模型能够动态地根据上下文改变用户界面的布局和功能。

牛顿：许多人认为，对普通用户而言，“聊天”这一用例已经基本解决。他们甚至想不出什么新问题能让Gemini 3的回答与前代产生质的区别。你如何看待这种看法？

伍德沃德：我理解这种观点。表面上看，基础问答的准确率已经很高。但真正的区别在于可靠性、整合度与信息呈现方式。Gemini 3的回答将更简洁、更有表现力、信息呈现方式更易理解，这是大多数人立刻能感知到的变化。

更重要的是，模型开始与用户其他数据源深度整合，例如与谷歌生态内其他产品联动，真正超越单纯的问答模式，成为用户的“数字化大管家”。它能理解你整个邮箱的语境，从而在起草回复时，不仅回答问题，还能根据你过去的风格、你与收件人的关系来调整语气和内容。

哈萨比斯：我完全同意。它的可靠性、风格与个性都经过精心打磨，更简练、更切中要害。在“氛围编码”等场景已跨越实用性门槛。这是一种从“智能助手”到“智能同事”的转变。我本人计划用它在圣诞假期重拾游戏编程，它现在不仅能写出功能代码，还能在设计初期就提供架构建议。

罗兹：德米斯，你在今年5月接受我们采访时判断AGI仍需5至10年，并可能需要若干重大突破。Gemini 3是否改变了这一时间表？

哈萨比斯：完全没有。它完全符合我们过去两年设定的轨迹。事实上，自Gemini系列启动以来，我们的进步速度已是行业最快。Gemini 3令人惊艳，但仍在预期之内。

距离真正的通用人工智能，仍需在一致性、推理深度、记忆机制以及物理世界建模（如我们正在推进的SIMA与Genie项目）上取得1至2次关键突破。我们现在做的是“系统1思维”（快、直觉式），但要实现AGI，我们必须解锁“系统2思维”（慢、深思熟虑、分析式）。

此外，模型需要具备长期的、选择性的记忆机制，能够回忆和应用数周、数月前的特定互动内容，而非仅仅局限于有限的上下文窗口。因此，5至10年的判断不变。

牛顿：新万博体育：模型个性与用户关系，业界正在热议“AI伴侣”。你希望用户与Gemini 3建立何种关系？

伍德沃德：这是一个非常敏感但重要的问题。我们将其定位为“超级工具”而非情感伴侣，核心价值是帮助用户高效完成日常任务，提升生产力。我们内部更关注一个新指标：今天我们帮你完成了多少项任务？这更接近初代谷歌搜索的核心价值——效率。我们认为，将模型推向情感伴侣的定位，既有安全风险，也偏离了谷歌作为信息和工具提供者的核心使命。

罗兹：你们放弃了“情色伴侣”这一病毒式增长机会，是否重大战略失误？

伍德沃德：无可奉告。我们的安全团队对此有严格的规范和指导原则。

罗兹：过去几周，竞争对手明显紧张。你认为谷歌目前在AI竞赛中是否已处于领先？

哈萨比斯：当前环境是史上最激烈的竞争。唯一真正重要的是进步速度，而我们对此非常满意。我们从未失去研究领先地位，现在只是产品落地终于跟上。竞争对手在研究上很优秀，但在规模化分发和垂直整合上，他们无法复制我们的优势。

我们正将Gemini注入Maps、YouTube、Android、搜索、Workspace等数十亿用户产品，这个分发网络和终端数据反馈环是无法逾越的护城河。此外，我们在定制化TPU芯片上的全栈优势，使我们的训练成本和效率远超依赖外部GPU资源的竞争者。

牛顿：新万博体育：规模定律与回报递减的争论，你怎么看？有人认为，模型的规模越大，性能提升的边际效益越低。

哈萨比斯：这是一个持续的辩论。我们对Gemini 3相较2.5的提升非常满意，完全符合预期。回报并非像早期那样呈指数级爆炸式增长，但它带来的实用性增量和可靠性提升仍远高于我们的边际成本，仍值得我们全力投入。在抵达AGI所需的1至2次研究突破到来之前，通过最大规模的基础模型持续推动性能，仍然是当前最有效的策略。我们相信，规模定律依然有效。

罗兹：我们是否正处于AI泡沫之中？

哈萨比斯：这是一个过于二元的问题。某些领域（例如数十亿美元种子轮却无实际产品、只讲概念的公司）确实存在泡沫，估值与实际收入不成比例。但谷歌同时拥有短期变现（搜索、Workspace、云TPU）与长期万亿级新赛道（机器人、游戏、药物发现、材料科学等）。

例如，我们的AlphaFold等专业模型正在药物发现领域创造实际价值，这是一个与消费者AI估值无关的万亿级市场。无论短期泡沫是否存在，我们都将胜出：繁荣时抓住机会，收缩时凭借全栈优势和深厚的现金流更具韧性。

牛顿：如果现在是感恩节聚会，有人想转移政治话题，你会建议他们用Gemini 3展示什么功能来惊艳全场？

伍德沃德：我不知道它能不能拯救感恩节，但它能带来欢笑。拿出手机自拍，然后让Gemini 3疯狂编辑照片。

我们Gemini中的图像模型在全球范围内仍然是最强的。你可以即时将家人合影变成任何滑稽的场景、风格或时代背景。绝对能引发全场大笑。随后，当你展示它能如何帮你撰写一封得体的辞职信或生成一个定制化的节日食谱计算器时，他们自然就会探索其他新功能了。

本文来自微信公众号：划重点KeyPoints，作者：林易，编辑：重点君

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4807483.html?f=wyxwapp