发布日期:2026-02-24 13:27 点击次数:122

Google 推出的 Gemini 3.1 Pro 预览版在 Artificial Analysis 东说念主工智能指数中得到跳动地位,以 4 分之差迥殊 Anthropic 的 Claude Opus 4.6。 这款模子在本钱效益方面推崇杰出,其起首用度不到竞争敌手的一半,并在十个评测类别中的六个类别排行第一,包括代理编码、常识、科学推理与物理学。 相较于前代模子,其幻觉率大幅下落了 38 个百分点,泄漏 Google 在模子可靠性上的权臣进展。
低功耗模子裁减企业起首本钱
在起首圆善指数测试的本钱对比中,Gemini 3.1 Pro仅需892好意思元,远低于GPT-5.2的2,304好意思元以及Claude Opus 4.6的2,486好意思元。 测试数据泄漏,Gemini仅消费5,700万个Token,远低于GPT-5.2的1.3亿个Token。 天然如GLM-5等开源模子的本钱更低(约547好意思元),但Gemini 3.1 Pro在效用与预算之间得到了极佳的均衡,突破了高效用AI模子势必奉陪腾贵代价的商场常规。
推行诓骗推崇仍落伍竞争敌手
尽管在基准测试中推崇优异,开元棋牌app但Gemini 3.1 Pro在惩办现实宇宙的代理任务时,仍落伍于Claude Sonnet 4.6、Opus 4.6以及GPT-5.2。 这响应出基准测试天然能代表时代参数的擢升,但在复杂的多范例任务中,Google 的模子仍有优化空间。 跟着2026年AI竞争参预尖锐化阶段,企业在聘用模子时不仅垂青跑分,更原谅在推行坐褥环境中的履行力。
{jz:field.toptypename/}事实查核才能靠近褂讪性挑战
基准测试的局限性在事实查核测试中尤为显着。 在里面的查核测试中,Gemini 3.1 Pro的推崇权臣逊于Claude Opus 4.6或GPT-5.2,仅能考据约四分之一的施展内容,其准确度以致低于Gemini 3 Pro。 这指示设备者与企业用户,天然模子在科学推理与编码上有所突破,但在信息准确性条目极高的场景下,仍需设立专属的评测圭臬,以确保AI输出的内容相宜果真情况。
发布于:广东省
(起原:中国科协) 转自:中国科协 跟着春节假期周边尾声,许多东谈主链接重启了“减肥”计较。或是夜跑,或是走进健身房开动教诲,但一番奋勉后,许多东谈主在看到体重秤上头的数字时照旧会发出尖叫声:“为什么体重少许没变啊!”其实这是许多东谈主遭受过的逆境。 图库版权图片,转载使用可能激励版权纠纷 中国科学院谋划东谈主员联接国外团队在《现代生物学》(Current Biology) 在线发表题为《能量抵偿与东谈主类肥壮》的谋划论文,提议了一个要津的见解——能量抵偿,它梗概是导致减肥贫困的迫切要素之一。...
(起原:中国科协) 转自:中国科协 跟着春节假期周边尾声,许多东谈主链接重启了“减肥”计较。或是夜跑,或是走进健身房开动...
Google 推出的 Gemini 3.1 Pro 预览版在 Artificial Analysis 东说念主工智能指数...
在古地磁磋商平分析渺小剩磁?在纳米磁学中表征单颗粒磁性?在一阶回转弧线(FORC)分析中剖析复杂磁互相作用?这些前沿磋商...
新华社香港1月19日电(奚天麒)全国可握续发展前沿论坛19日在香港举行。这是“2026 IEEE电力与动力协会外洋会议暨...
