BET365体育官方网站 Gemini 3.5 Flash 实测：当模子速率参加 4G 期间，Agent 的游戏法规变了

发布日期：2026-05-26 23:22 来源：未知作者：admin 浏览次数：

全国武功，唯快不破。

作家｜金光浩

剪辑｜靖宇

本周 Google I/O 大会上，谷歌发布了最新模子 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash｜图片来源：youtube

真义的是，隔一天堂内 Qwen3.7-Max 也发布了，而且两个模子都堪称我方在 Agent 场景上作念了深度优化。

我看到他们的第一反应是：又是新一轮「模子大战」，国表里厂商再次开启跑分竞赛。

但此次我花了两天时分实测之后，我发现 Gemini 3.5 Flash 给我最大的感受不是它有多智慧，而是它的速率快到让我不得不从头想一个问题：

当模子的反应速率从「能用」形成「及时」，统共这个词 Agent 的使用体验会发生什么质变？

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很故兴味：

Google 把它放在了 Flash 系列，但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平，以致特出了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代码智力在 Terminal-Bench 2.1 上得分 76.2%，特出了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。

这意味着一个 Flash 定位的模子，在干活智力上仍是靠拢以致特出了许多旗舰居品。

Gemini 3.5 Flash 的各项性能｜图片来源：Google 播客

订价方面，输入 1.5 好意思元 / 百万 token，输出 9 好意思元 / 百万 token。它跟 Claude Opus 4.7 输入 5 好意思元输出 25 好意思元的订价比，低廉了几倍。跟 GPT-5.5 比，也有昭着的价钱上风。

但确切让它在一众模子中脱颖而出的，是 289 tokens/ 秒的输出速率：首 token 延伸随机 65 毫秒，比其他前沿模子快了 4 倍独揽。

Gemini 3.5 Flash 在性能 * 速率方面惟一档｜图片来源：Google 播客

它在 benchmark 作念到了许多维度的 SOTA，具体用起来到底何如样？

实测：

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下：Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数相比接近。

Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近｜图片来源：Arena

Qwen3.7-Max 这个模子，在评测集上仍是特出了国内的旗舰模子 Kimi 2.6、GLM-5.1、DeepSeek-V4，是咫尺国内的第一水平，成果也相配接近海外的顶尖模子。

Qwen 此次也专门为 Agent 可靠性遐想，复古长达 35 小时的端到端自主任务施行，推理内核经过深度 GPU 优化，速率进步达 10 倍。

Qwen3.7-Max 的成果｜图片来源：Qwen

两个面向 Agent 场景的顶级选手放在一王人测，确切成果会若何呢？

第一个测试：写一首给我方的小情诗

提醒词：帮我写首给我方的小情诗

这是个轻量级任务，主要看基础文本生成的速率和质地。

Qwen3.7-Max 输出用了 30 秒，Gemini 3.5 Flash 用了 11 秒。速率差距接近 3 倍。

质地上，Qwen 的汉文文笔如实更好一些，遣意造句更有韵味。Gemini 天然汉文抒发稍显直白，但接头到 11 秒的反适时分，这个反应体验仍是很接近即时对话了。

Qwen 3.7-max 实测｜图片来源：Zenmux

Gemini 3.5 Flash 实测｜图片来源：Zenmux

如果你只是平日聊天写翰墨，两者都够用。

但如果场景换成 Agent 居品，用户每说一句话都在等回复，11 秒和 30 秒的差距即是「流通对话」和「昭着在等」的区别。

第二个测试：Golden Gate Bridge 3D 体素模拟

提醒词：ObjectiveBuild a visually stunning， high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals ( not simple blocks ) ， strong atmosphere depth， and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider ( 0 – 24h ) that controls sun position， intensity， sky color， and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0 – 100 ( 0 = crystal clear， 100 = dense but not pure whiteout ) .- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog ( exp2 ) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom ( night lights glow but keep performance ) .Scene Details- Bridge: recognizable art-deco towers， main span cables + suspenders， piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh， properly aligned on the deck ( avoid clipping ) . Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds ( lightweight flocking ) .Night ModeAt night， enable city lights， bridge beacons， street lights， vehicle lights， ship nav lights.Tech & Controls ( Important ) - Output MUST be a single self-contained HTML file ( e.g.， golden_gate_bridge.html ) that runs by opening in Chrome.- No build tools ( no Vite/Webpack ) . Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time ( 0 – 24 ) ， Fog Density ( 0 – 100 ) ， Traffic Density ( 0 – 100 ) ， Camera Zoom.- Optimization: use InstancedMesh for repeated items ( cars/lights/birds ) ， avoid heavy geometry， keep draw calls low.

我给了一个相配复杂的 Three.js 需求，条款生成一个带日夜系统、雾气成果、交通流、船只和鸟群的金门大桥 3D 场景，输出必须是单文献 HTML，不可用任何构建用具。

Qwen3.7-Max 输出用了 204 秒，破钞了 14770 个 token。Gemini 3.5 Flash 用了 157 秒，但破钞了 35996 个 token。

这里出现了一个故兴味的状态：Gemini 天然总耗时更短，但 token 破钞是 Qwen 的 2.4 倍。

换句话说，Gemini 完成相通任务写的代码破钞的 token 如实更「多」，这也意味着举座 Gemini 在施行任务的用度更贵。

不外 Gemini 3.5 Flash 因为每秒吐出的 token 数目远高于敌手，是以如故能保抓总时分反而更短。

视觉成果上，Qwen3.7-Max 的举座档次感更丰富，光影和氛围作念得更简易。Gemini 则胜在桥的结构细节，悬索、塔柱的比例更接近确切的金门大桥。

两者各有长处，都是高水准的输出。

第三个测试：macOS 菜单栏语音输入诓骗

提醒词：https://github.com/yetone/voice-input-src

模子智力强不彊，Agent 场景才是确切拉开差距的处所。

前两个测试本色上都是「一次性生成」——给个提醒词，模子输出一段内容就终局了。但确切的 Agent 职责流不是这么的，它是一个长程任务，需要模子反复与环境交互、试错、修正。

是以此次，我让两个模子各自完好意思一个完满的 macOS 语音输入诓骗。这个开源神志很故兴味：仓库里只好一份提醒词，莫得任何代码。料想一又友说的那句话：在 AI 期间，文档是金钱，代码是欠债。

我把需求丢给两个模子，阔别在 Claude Code 上跑。需求包括：Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容科罚、LLM 纠错集成、菜单栏设立界面，最终条款输出签名好的 .app 包。

范畴差距相配大：

Qwen3.7-Max 跑了 55 分钟，然而圭臬也没能一遍过，中间出现编译造作，需要东说念主工介入。

而 Gemini 3.5 Flash 仅跑了 10 分钟，圭臬径直一遍过。

从 55 分钟到 10 分钟：快要 5 倍的效力差距，而且 Gemini 的输出是径直能用的，不需要非凡调试。

这个范畴让我有点不测：

之前写诗和作念 3D 的测试里，两者差距并不大。但一朝参加 Agent 编程的场景，Gemini 3.5 Flash 的 Agent 智力和速率上风被急剧放大了。

原因也很好认知：Agent 施行长程编码任务，不是一次性输出一大段翰墨，而是要反复调用用具、读取反馈、修改代码、再次施行。每一轮交互都省下来的时分积贮起来，差距就变得盛大。

模子体验正在参加 4G 期间

我用了一个可能不太精准，365投注app官方版但很直不雅的说法：

往时大模子的生成速率更接近 3G 的体验，你知说念它在职责，但你需要等。

而 Gemini 3.5 Flash，让我第一次感受到了接近 4G 的流通度。

这种速率上的变化带来的不单是是「快少量」的体验进步，它径直决定了某些居品形态能不可征战。

比如 AI 追随这个场景：最近 520 EVE 火了，王登科最近也上线了 AI 追随居品 The One。

在追随场景里，用户对恢复速率的明锐度极高：

如果对方两三秒就能回你，那种嗅觉是「在聊天」，但如果要等十几秒，那种嗅觉是「在等一个机器给你生成内容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 延伸，289 tokens/ 秒的输出速率，意味着用户险些感受不到恭候。

微信里的 AI 追随 The One ｜图片来源：微信

但速率和智能之间存在一个很现实的矛盾：

GPT-5.4 刚出来的时候，编程成果特出了 Anthropic 4.5，但好多东说念主如故罗致延续用 Anthropic 4.5。

为什么？因为在执行工程任务里，认知性和指示投诚的精度有时候比极致的智慧更首要：

模子想变得更智慧，频繁意味着参数目更大、推理链更长，这就会导致速率着落。

是以行业里初始出现一种分化：有的公司死磕模子智力上限，有的公司则专注于在保抓够用的智能水平的同期，把速率推到极致。

Gemini 3.5 Flash 罗致了后者，而且作念得十分激进：它以致把默许推理档位从上一代 Flash 的 High 降到了 Medium，主动申斥推理深度来换取速率进步。

Google 在这里作念了一个关键的有计算：关于 Agent 场景来说，快比智慧更首要。

这个判断对不合？从 Agent 的发展趋势来看，它很可能是对的。

速率对 Agent 意味着什么

回到著作开头阿谁问题：

当模子的反应速率从「能用」形成「及时」，Agent 的使用体验会发生什么质变？

我想从两个维度走动答。

第一个是及时交互的体验升级。

Claude Code 这类 Agent 居品在施行任务时，用户能昭着嗅觉到模子在「想考」「恭候」「科罚」的流弊。

这些流弊加起来，一个 20 分钟的任务可能有 5 分钟是你在看它转圈。

当速率快 4 倍，这些流弊被大幅压缩，统共这个词历程变得更像「你打发任务，它流通施行」，而不是「你打发任务，它断断续续地干」。

第二个维度更故兴味，亦然我合计 Gemini 3.5 Flash 确切的价值所在：

它让 Agent 能在调换时间内完成更多的事。

遐想一下这么一个场景。假定你让一个 Agent 跑 24 小时来完成一个大型神志。如果模子输出速率是正本的 4 倍，在 Agent 调用用具的时分不变的前提下，一天内的产出可能进步 2 到 3 倍。

这个猜想很毛糙，因为 Agent 施行历程中有无数时分花在恭候用具复返范畴、读取文献、编译代码上，这些时分不会因为模子变快而镌汰。但模子想考和输出代码的那部分时分如实能被大幅压缩。

而最近的趋势是，Agent 施行任务的时分越来越长：

Claude Code 在阻挡优化它的任务编排智力；OpenAI Codex 最近推出了 /goal 功能，不错让 Agent 通顺运行几小时以致几天直到任务完成；各家都在发愤拉长模子的抓续职责时分：从半小时的任务到几小时的神志，再到 Qwen3.7-Max 声称复古的 35 小时端到端施行。

任务时分线被拉长的同期，模子反应速率的价值也在同步放大：

一个 10 分钟的任务，省几分钟你可能无感。

但当任务拉长到 10 小时、24 小时，省下的时分可能是小时级的。

即使只算模子输出要害快 4 倍，一天的长程任务也能多挤出好几个小时的灵验产出。

Agent 的长程职责时分越来越长 | 图片来源：Anthropic

这即是 Gemini 3.5 Flash 对 Agent 生态确切的价值：

它让 Agent 的出产效力进步了一个量级，而且这个收益会跟着任务时长的加多而抓续放大。

长程 Agent 智力之王

写到这里我想作念个转头。

Gemini 3.5 Flash 有昭着的短板：它在 Humanity's Last Exam 上只拿了 40.2%，低于自家上一代 Pro 的 44.4%。在抽象推理、长文档检索等测试中发扬也不算隆起。

它如实「偏科」，这是有利而为之，Google 主动在某些智力上作念了采取：

Gemini 3.5 Flash 罗致了 Coding 和长程 Agent 智力，比如在 APEX 基准测试上（评估模子在确切职责场景中施行跨诓骗、长跨度任务的智力），Gemini 3.5 Flash 名次民众第一。

Gemini 3.5 Flash 在 APEX 惟一档 | 图片来源：artificialanalysis

但如果你把视角从「模子对比」切换到「Agent 用具选型」，你会发现这些短板在好多执行场景里并不致命：

大部分 Agent 任务不需要模子去回答「东说念主类临了一考」那种笼统常识题，它需要的是快速生成代码、准确调用用具、高效科罚多圭表职责流。

而在这些场景上，Gemini 3.5 Flash 作念到了又快又好。

前两天听了一期播客，张小珺对姚顺宇的四小时访谈，姚顺宇是从 Anthropic 跳到 Google DeepMind 的酌量科学家，参与过 Claude 3.7 和 Gemini 3 的开发。

张小珺和姚顺宇对谈 | 图片来源：小天地

他有句话让我印象很深：当今模子在纸面上看着都差未几，benchmark 高一个点低一个点，那些差距主如果噪声而不是信号，执行用起来，区别依然昭着。

然后他聊到我方当今的酌量重点，两件事：AI 我方作念酌量，以及 long horizon。Long horizon 即是让模子在更长的时分跨度里抓续职责，完成那些一句提醒词搞不定的复杂任务。

Gemini 3.5 Flash 无疑是这个不雅点印证，它的发布鲜艳着一个新阶段的初始：

以前咱们选模子看的是「谁最智慧」。但当 Agent 成为主要的调用样式，谜底可能要改成「谁能让 Agent 跑得最快、最远、最稳」。它亦然第一个让我明确感知到这个拐点的居品。

如果你正在用 Claude Code 或者其他 Agent 用具作念开发，我提议试试把底层模子切到 Gemini 3.5 Flash 跑几个神志。

你会发现：那种 10 分钟委派一个完满诓骗的体验，用过之后很难且归。

毕竟，全国武功，唯快不破。

U体育(中国)官网入口

* 头图来源：youtube

本文为极客公园原创著作，转载请研究极客君微信 geekparkGO

极客一问

你认为大模子的速率和智力，

哪个更首要？

上一篇：上一篇：BET365下注场所政府债券利息收入的税务处理与陈述实务

365资讯

BET365体育官方网站 Gemini 3.5 Flash 实测：当模子速率参加 4G 期间，Agent 的游戏法规变了