电话: 邮箱:
博 学 而 笃 志   切 问 而 近 思 SEEK BROAD KNOWLEDGE · ASK EARNESTLY

365资讯

365资讯

BET365体育官方网站 Gemini 3.5 Flash 实测:当模子速率参加 4G 期间,Agent 的游戏法规变了

发布日期:2026-05-26 23:22 来源:未知 作者:admin 浏览次数:

BET365体育官方网站 Gemini 3.5 Flash 实测:当模子速率参加 4G 期间,Agent 的游戏法规变了

全国武功,唯快不破。

作家|金光浩

剪辑|靖宇

本周 Google I/O 大会上,谷歌发布了最新模子 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash|图片来源:youtube

真义的是,隔一天堂内 Qwen3.7-Max 也发布了,而且两个模子都堪称我方在 Agent 场景上作念了深度优化。

我看到他们的第一反应是:又是新一轮「模子大战」,国表里厂商再次开启跑分竞赛。

但此次我花了两天时分实测之后,我发现 Gemini 3.5 Flash 给我最大的感受不是它有多智慧,而是它的速率快到让我不得不从头想一个问题:

当模子的反应速率从「能用」形成「及时」,统共这个词 Agent 的使用体验会发生什么质变?

01

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很故兴味:

Google 把它放在了 Flash 系列,但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平,以致特出了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代码智力在 Terminal-Bench 2.1 上得分 76.2%,特出了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。

这意味着一个 Flash 定位的模子,在干活智力上仍是靠拢以致特出了许多旗舰居品。

Gemini 3.5 Flash 的各项性能|图片来源:Google 播客

订价方面,输入 1.5 好意思元 / 百万 token,输出 9 好意思元 / 百万 token。它跟 Claude Opus 4.7 输入 5 好意思元输出 25 好意思元的订价比,低廉了几倍。跟 GPT-5.5 比,也有昭着的价钱上风。

但确切让它在一众模子中脱颖而出的,是 289 tokens/ 秒的输出速率:首 token 延伸随机 65 毫秒,比其他前沿模子快了 4 倍独揽。

Gemini 3.5 Flash 在性能 * 速率方面惟一档|图片来源:Google 播客

它在 benchmark 作念到了许多维度的 SOTA,具体用起来到底何如样?

02

实测:

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下:Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数相比接近。

Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近|图片来源:Arena

Qwen3.7-Max 这个模子,在评测集上仍是特出了国内的旗舰模子 Kimi 2.6、GLM-5.1、DeepSeek-V4,是咫尺国内的第一水平,成果也相配接近海外的顶尖模子。

Qwen 此次也专门为 Agent 可靠性遐想,复古长达 35 小时的端到端自主任务施行,推理内核经过深度 GPU 优化,速率进步达 10 倍。

Qwen3.7-Max 的成果|图片来源:Qwen

两个面向 Agent 场景的顶级选手放在一王人测,确切成果会若何呢?

第一个测试:写一首给我方的小情诗

提醒词:帮我写首给我方的小情诗

这是个轻量级任务,主要看基础文本生成的速率和质地。

Qwen3.7-Max 输出用了 30 秒,Gemini 3.5 Flash 用了 11 秒。速率差距接近 3 倍。

质地上,Qwen 的汉文文笔如实更好一些,遣意造句更有韵味。Gemini 天然汉文抒发稍显直白,但接头到 11 秒的反适时分,这个反应体验仍是很接近即时对话了。

Qwen 3.7-max 实测 |图片来源:Zenmux

Gemini 3.5 Flash 实测 |图片来源:Zenmux

如果你只是平日聊天写翰墨,两者都够用。

但如果场景换成 Agent 居品,用户每说一句话都在等回复,11 秒和 30 秒的差距即是「流通对话」和「昭着在等」的区别。

第二个测试:Golden Gate Bridge 3D 体素模拟

提醒词:ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals ( not simple blocks ) , strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider ( 0 – 24h ) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0 – 100 ( 0 = crystal clear, 100 = dense but not pure whiteout ) .- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog ( exp2 ) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom ( night lights glow but keep performance ) .Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck ( avoid clipping ) . Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds ( lightweight flocking ) .Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls ( Important ) - Output MUST be a single self-contained HTML file ( e.g., golden_gate_bridge.html ) that runs by opening in Chrome.- No build tools ( no Vite/Webpack ) . Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time ( 0 – 24 ) , Fog Density ( 0 – 100 ) , Traffic Density ( 0 – 100 ) , Camera Zoom.- Optimization: use InstancedMesh for repeated items ( cars/lights/birds ) , avoid heavy geometry, keep draw calls low.

我给了一个相配复杂的 Three.js 需求,条款生成一个带日夜系统、雾气成果、交通流、船只和鸟群的金门大桥 3D 场景,输出必须是单文献 HTML,不可用任何构建用具。

Qwen3.7-Max 输出用了 204 秒,破钞了 14770 个 token。Gemini 3.5 Flash 用了 157 秒,但破钞了 35996 个 token。

这里出现了一个故兴味的状态:Gemini 天然总耗时更短,但 token 破钞是 Qwen 的 2.4 倍。

换句话说,Gemini 完成相通任务写的代码破钞的 token 如实更「多」,这也意味着举座 Gemini 在施行任务的用度更贵。

不外 Gemini 3.5 Flash 因为每秒吐出的 token 数目远高于敌手,是以如故能保抓总时分反而更短。

视觉成果上,Qwen3.7-Max 的举座档次感更丰富,光影和氛围作念得更简易。Gemini 则胜在桥的结构细节,悬索、塔柱的比例更接近确切的金门大桥。

两者各有长处,都是高水准的输出。

第三个测试:macOS 菜单栏语音输入诓骗

提醒词:https://github.com/yetone/voice-input-src

模子智力强不彊,Agent 场景才是确切拉开差距的处所。

前两个测试本色上都是「一次性生成」——给个提醒词,模子输出一段内容就终局了。但确切的 Agent 职责流不是这么的,它是一个长程任务,需要模子反复与环境交互、试错、修正。

是以此次,我让两个模子各自完好意思一个完满的 macOS 语音输入诓骗。这个开源神志很故兴味:仓库里只好一份提醒词,莫得任何代码。料想一又友说的那句话:在 AI 期间,文档是金钱,代码是欠债。

我把需求丢给两个模子,阔别在 Claude Code 上跑。需求包括:Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容科罚、LLM 纠错集成、菜单栏设立界面,最终条款输出签名好的 .app 包。

范畴差距相配大:

Qwen3.7-Max 跑了 55 分钟,然而圭臬也没能一遍过,中间出现编译造作,需要东说念主工介入。

而 Gemini 3.5 Flash 仅跑了 10 分钟,圭臬径直一遍过。

从 55 分钟到 10 分钟:快要 5 倍的效力差距,而且 Gemini 的输出是径直能用的,不需要非凡调试。

这个范畴让我有点不测:

之前写诗和作念 3D 的测试里,两者差距并不大。但一朝参加 Agent 编程的场景,Gemini 3.5 Flash 的 Agent 智力和速率上风被急剧放大了。

原因也很好认知:Agent 施行长程编码任务,不是一次性输出一大段翰墨,而是要反复调用用具、读取反馈、修改代码、再次施行。每一轮交互都省下来的时分积贮起来,差距就变得盛大。

03

模子体验正在参加 4G 期间

我用了一个可能不太精准,365投注app官方版但很直不雅的说法:

往时大模子的生成速率更接近 3G 的体验,你知说念它在职责,但你需要等。

而 Gemini 3.5 Flash,让我第一次感受到了接近 4G 的流通度。

这种速率上的变化带来的不单是是「快少量」的体验进步,它径直决定了某些居品形态能不可征战。

比如 AI 追随这个场景:最近 520 EVE 火了,王登科最近也上线了 AI 追随居品 The One。

在追随场景里,用户对恢复速率的明锐度极高:

如果对方两三秒就能回你,那种嗅觉是「在聊天」,但如果要等十几秒,那种嗅觉是「在等一个机器给你生成内容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 延伸,289 tokens/ 秒的输出速率,意味着用户险些感受不到恭候。

微信里的 AI 追随 The One |图片来源:微信

但速率和智能之间存在一个很现实的矛盾:

GPT-5.4 刚出来的时候,编程成果特出了 Anthropic 4.5,但好多东说念主如故罗致延续用 Anthropic 4.5。

为什么?因为在执行工程任务里,认知性和指示投诚的精度有时候比极致的智慧更首要:

模子想变得更智慧,频繁意味着参数目更大、推理链更长,这就会导致速率着落。

是以行业里初始出现一种分化:有的公司死磕模子智力上限,有的公司则专注于在保抓够用的智能水平的同期,把速率推到极致。

Gemini 3.5 Flash 罗致了后者,而且作念得十分激进:它以致把默许推理档位从上一代 Flash 的 High 降到了 Medium,主动申斥推理深度来换取速率进步。

Google 在这里作念了一个关键的有计算:关于 Agent 场景来说,快比智慧更首要。

这个判断对不合?从 Agent 的发展趋势来看,它很可能是对的。

04

速率对 Agent 意味着什么

回到著作开头阿谁问题:

当模子的反应速率从「能用」形成「及时」,Agent 的使用体验会发生什么质变?

我想从两个维度走动答。

第一个是及时交互的体验升级。

Claude Code 这类 Agent 居品在施行任务时,用户能昭着嗅觉到模子在「想考」「恭候」「科罚」的流弊。

这些流弊加起来,一个 20 分钟的任务可能有 5 分钟是你在看它转圈。

当速率快 4 倍,这些流弊被大幅压缩,统共这个词历程变得更像「你打发任务,它流通施行」,而不是「你打发任务,它断断续续地干」。

第二个维度更故兴味,亦然我合计 Gemini 3.5 Flash 确切的价值所在:

它让 Agent 能在调换时间内完成更多的事。

遐想一下这么一个场景。假定你让一个 Agent 跑 24 小时来完成一个大型神志。如果模子输出速率是正本的 4 倍,在 Agent 调用用具的时分不变的前提下,一天内的产出可能进步 2 到 3 倍。

这个猜想很毛糙,因为 Agent 施行历程中有无数时分花在恭候用具复返范畴、读取文献、编译代码上,这些时分不会因为模子变快而镌汰。但模子想考和输出代码的那部分时分如实能被大幅压缩。

而最近的趋势是,Agent 施行任务的时分越来越长:

Claude Code 在阻挡优化它的任务编排智力;OpenAI Codex 最近推出了 /goal 功能,不错让 Agent 通顺运行几小时以致几天直到任务完成;各家都在发愤拉长模子的抓续职责时分:从半小时的任务到几小时的神志,再到 Qwen3.7-Max 声称复古的 35 小时端到端施行。

任务时分线被拉长的同期,模子反应速率的价值也在同步放大:

一个 10 分钟的任务,省几分钟你可能无感。

但当任务拉长到 10 小时、24 小时,省下的时分可能是小时级的。

即使只算模子输出要害快 4 倍,一天的长程任务也能多挤出好几个小时的灵验产出。

Agent 的长程职责时分越来越长 | 图片来源:Anthropic

这即是 Gemini 3.5 Flash 对 Agent 生态确切的价值:

它让 Agent 的出产效力进步了一个量级,而且这个收益会跟着任务时长的加多而抓续放大。

05

长程 Agent 智力之王

写到这里我想作念个转头。

Gemini 3.5 Flash 有昭着的短板:它在 Humanity's Last Exam 上只拿了 40.2%,低于自家上一代 Pro 的 44.4%。在抽象推理、长文档检索等测试中发扬也不算隆起。

它如实「偏科」,这是有利而为之,Google 主动在某些智力上作念了采取:

Gemini 3.5 Flash 罗致了 Coding 和 长程 Agent 智力,比如在 APEX 基准测试上(评估模子在确切职责场景中施行跨诓骗、长跨度任务的智力),Gemini 3.5 Flash 名次民众第一。

Gemini 3.5 Flash 在 APEX 惟一档 | 图片来源:artificialanalysis

但如果你把视角从「模子对比」切换到「Agent 用具选型」,你会发现这些短板在好多执行场景里并不致命:

大部分 Agent 任务不需要模子去回答「东说念主类临了一考」那种笼统常识题,它需要的是快速生成代码、准确调用用具、高效科罚多圭表职责流。

而在这些场景上,Gemini 3.5 Flash 作念到了又快又好。

前两天听了一期播客,张小珺对姚顺宇的四小时访谈,姚顺宇是从 Anthropic 跳到 Google DeepMind 的酌量科学家,参与过 Claude 3.7 和 Gemini 3 的开发。

张小珺和姚顺宇对谈 | 图片来源:小天地

他有句话让我印象很深:当今模子在纸面上看着都差未几,benchmark 高一个点低一个点,那些差距主如果噪声而不是信号,执行用起来,区别依然昭着。

然后他聊到我方当今的酌量重点,两件事:AI 我方作念酌量,以及 long horizon。Long horizon 即是让模子在更长的时分跨度里抓续职责,完成那些一句提醒词搞不定的复杂任务。

Gemini 3.5 Flash 无疑是这个不雅点印证,它的发布鲜艳着一个新阶段的初始:

以前咱们选模子看的是「谁最智慧」。但当 Agent 成为主要的调用样式,谜底可能要改成「谁能让 Agent 跑得最快、最远、最稳」。它亦然第一个让我明确感知到这个拐点的居品。

如果你正在用 Claude Code 或者其他 Agent 用具作念开发,我提议试试把底层模子切到 Gemini 3.5 Flash 跑几个神志。

你会发现:那种 10 分钟委派一个完满诓骗的体验,用过之后很难且归。

毕竟,全国武功,唯快不破。

U体育(中国)官网入口

* 头图来源:youtube

本文为极客公园原创著作,转载请研究极客君微信 geekparkGO

极客一问

你认为大模子的速率和智力,

哪个更首要?

上一篇:上一篇:BET365下注 场所政府债券利息收入的税务处理与陈述实务
下一篇:下一篇:没有了