谷歌DeepMind发布Gemini 2.0开启Agentic AI新时代 - 人工智能重大突破
谷歌DeepMind近日发布了Gemini 2.0,这一人工智能领域的重大突破标志着Agentic AI(自主智能体)新时代的开启。谷歌DeepMind的CEO Demis Hassabis和CTO Koray Kavukcuoglu代表Gemini团队宣布了这一消息。
Gemini 2.0的核心亮点
Gemini 2.0是谷歌在人工智能领域的最新里程碑,其核心目标是通过多模态能力、长上下文理解以及复杂的指令执行,推动AI技术向更实用、更智能的方向发展。Gemini 2.0的发布不仅展示了谷歌在AI技术上的领先地位,也为开发者提供了强大的工具,以构建创新的应用程序。
谷歌CEO Sundar Pichai的展望
谷歌和Alphabet的CEO Sundar Pichai强调,Gemini 2.0进一步推动了谷歌“组织全球信息,使其易于访问和操作”的使命。Gemini 2.0通过处理多样化的输入和输出,使技术变得更加有用和具有影响力。
Pichai回顾了去年12月发布的Gemini 1.0,这是多模态AI的一个重要里程碑。Gemini 1.0能够理解和处理文本、视频、图像、音频和代码等多种数据形式。与Gemini 1.5一起,这些模型已经使数百万开发者能够在谷歌的生态系统中进行创新,包括其七款拥有超过20亿用户的产品。NotebookLM被引用为多模态和长上下文能力的变革性力量的典型例子。
Agentic AI的崛起
Pichai还讨论了谷歌在Agentic AI(自主智能体)方面的专注。Agentic AI模型被设计为能够理解其环境,提前规划多个步骤,并采取受监督的行动。例如,Agentic AI可以支持通用助手工具,帮助组织日程、提供实时导航建议或为企业执行复杂的数据分析。Gemini 2.0的发布标志着谷歌在这些实用和具有影响力的应用方面取得了重大进展。
Gemini 2.0 Flash的发布
Gemini 2.0 Flash是Gemini 2.0家族中的首个实验性模型,专为低延迟和高性能设计,体现了规模化应用的前沿技术。该模型在关键基准测试中的速度是Gemini 1.5 Pro的两倍,同时引入了先进的多模态能力,为AI应用设定了新的效率和能力标准。
Gemini 2.0 Flash支持多模态输入(如图像、视频和音频)和多模态输出(如原生生成的图像与文本结合、可操控的文本到语音多语言音频)。此外,它还可以原生调用Google Search等工具,执行代码并与第三方用户定义函数交互。
多模态Live API的创新
为了支持动态和交互式应用,Gemini 2.0 Flash还引入了多模态Live API,支持实时音频和视频流输入,并能够使用多个组合工具。例如,远程医疗应用可以利用该API无缝集成实时患者视频流与诊断工具和对话式AI,实现即时医疗咨询。
关键特性与性能提升
Gemini 2.0 Flash在多个关键领域表现出显著的性能提升:
- 通用性能(MMLU-Pro):得分76.4%,优于Gemini 1.5 Pro的75.8%。
- 代码生成(Natural2Code):大幅提升至92.9%,相比Gemini 1.5 Pro的85.4%。
- 事实性(FACTS Grounding):达到83.6%,表明生成事实性响应的准确性增强。
- 数学推理(MATH):得分89.7%,在复杂问题解决任务中表现出色。
- 图像理解(MIMVU):得分70.7%,在多模态能力上超越了Gemini 1.5模型。
- 音频处理(CoVoST2):显著提升至71.5%,反映了其增强的多语言能力。
Gemini 2.0在Gemini应用中的集成
从今天开始,全球的Gemini用户可以通过在桌面和移动网页上选择模型下拉菜单中的Gemini 2.0 Flash,访问其聊天优化版本。该功能很快将在Gemini移动应用中推出,提供增强的AI助手体验。明年初,Gemini 2.0将扩展到更多谷歌产品中。
Agentic AI的应用场景
Gemini 2.0 Flash的先进能力,包括多模态推理、长上下文理解、复杂指令执行和原生工具使用,正在通过研究原型探索新的自主智能体应用场景。例如:
- Project Astra:一款增强对话、记忆和工具使用的通用AI助手,目前正在原型眼镜上进行测试。
- Project Mariner:一款专注于浏览器的AI智能体,能够理解并与网页元素交互。
- Jules:一款集成到GitHub工作流程中的AI代码助手,帮助开发者提高效率。
游戏及其他领域的智能体应用
谷歌DeepMind一直利用游戏来优化AI模型在逻辑、规划和规则遵循方面的能力。最近发布的Genie 2模型能够从单张图像生成多样化的3D世界。基于这一传统,Gemini 2.0驱动的智能体正在协助玩家导航视频游戏,从屏幕动作中推理,并提供实时建议。
与Supercell等开发者合作,Gemini驱动的智能体正在从策略游戏《部落冲突》到模拟游戏《Hay Day》等各类游戏中进行测试。这些智能体还可以访问Google Search,为用户提供广泛的游戏知识。
负责任的发展
随着AI技术的进步,谷歌DeepMind始终致力于安全和责任。措施包括:
- 与责任与安全委员会合作,识别和缓解风险。
- 增强红队测试方法,优化模型安全性。
- 实施隐私控制,如会话删除,以保护用户数据。
- 确保AI智能体优先执行用户指令,而非外部恶意输入。
展望未来
Gemini 2.0 Flash的发布及一系列自主智能体原型代表了AI领域的一个激动人心的里程碑。随着研究人员进一步探索这些可能性,谷歌DeepMind正在积极推动AI的负责任发展,塑造Gemini时代的未来。
结论
Gemini 2.0在Agentic AI领域迈出了重要一步,引领我们进入一个智能、交互式系统的新时代。凭借其先进的多模态能力、改进的推理能力以及执行复杂任务的能力,Gemini 2.0为AI性能设定了新的标准。Gemini 2.0 Flash的发布及其实验性功能为开发者提供了强大的工具,以在多个领域创建创新应用。随着谷歌DeepMind继续优先考虑安全和责任,Gemini 2.0为AI的未来奠定了基础,一个智能助手在日常任务和专业应用中无缝协作的未来。
版权声明:
作者:5ifenxi
链接:https://5ifenxi.com/archives/1346.html
来源:爱分析网(5iFenXi.com)
文章版权归作者所有,未经允许请勿转载。