北京时间12月12日凌晨,谷歌发布了其新一代人工智能大模型——Gemini 2.0。这款被谷歌称为“为智能体时代设计”的模型,不仅性能卓越,还在多模态输入输出方面取得了重大进展。
Gemini 2.0的核心特点在于其强大的多模态能力,它支持原生图像和多语言音频输出,以及原生工具使用。这意味着,该模型能够理解和处理包括文本、图像、开云电竞视频和音频在内的多种输入类型,并提供相应的输出结果。此外,Gemini 2.0还集成了谷歌搜索、代码执行以及第三方用户定义函数等强大工具,进一步扩展了其应用范围。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示,如果说Gemini 1.0是关于组织和理解信息,那么Gemini 2.0则致力于使信息更加有用。他强调,Gemini 2.0将推动谷歌更接近于实现通用助理的愿景。
Gemini 2.0 Flash作为该系列的第一个版本,已经向开发者和可信测试人员开放,并计划于2025年初在更广泛的范围内推出。谷歌还计划将Gemini 2.0整合到更多产品中,尤其是在搜索和Gemini平台方面。
此外,谷歌还推出了Deep Research功能,这是一个专为复杂在线研究设计的高级功能,能够自动创建多步骤研究计划。Gemini 2.0的空间理解能力也提升到了新的高度,开云电竞为开发者开启了更广阔的应用想象空间。