亚马逊Nova基础模型:功能、测试与应用探索 - 人工智能新突破
在2024年re:Invent大会上,亚马逊发布了其最先进的Nova基础模型,旨在提升AI和内容创作的能力。本文将深入探讨Nova的架构,展示其强大的功能,并通过实际测试分享我的使用体验。
亚马逊Nova基础模型概述
亚马逊Nova是基础模型的下一代进化,结合了最先进的智能和无可比拟的性价比。这些模型通过Amazon Bedrock独家提供,赋能了广泛的应用场景。
从处理包含图像和文本分析的文档,到扩展营销内容创作,或构建能够解释和响应视觉数据的AI助手,亚马逊Nova提供了满足您需求的智能和灵活性。该套件包括两类专用模型:理解模型和创意内容生成模型,以精准和创新满足多样化的使用场景。
AWS Nova模型的类型
理解模型:文本和视觉智能
亚马逊Nova Micro、Nova Lite和Nova Pro是先进的理解模型,设计用于处理文本、图像和视频输入,并生成基于文本的输出。这些模型提供了多种功能,平衡了准确性、速度和成本,以满足不同的操作需求。主要功能包括:
- 跨各种智能层级的高效且经济实惠的推理
- 对文本、图像和视频的最先进理解
- 支持对文本、图像和视频输入的微调
- 尖端的多模态检索增强生成(RAG)和代理能力
- 通过Amazon Bedrock与专有数据和应用程序无缝集成
亚马逊Nova Micro
亚马逊Nova Micro是一个仅支持文本的模型,优化了超低延迟和成本效益。它在语言理解、翻译、推理、代码补全、头脑风暴和数学问题解决等广泛任务中表现出色。生成速度超过每秒200个token,非常适合需要快速响应的应用。
主要特点
- 最大token数:支持高达128k个token
- 语言:兼容200多种语言
- 微调:完全支持文本输入的微调
亚马逊Nova Lite
亚马逊Nova Lite是一个超快速且经济实惠的多模态模型,设计用于处理文本、图像和视频输入。其在多种任务中的出色准确性,结合卓越的速度,使其成为交互式和高容量应用的理想选择,特别是在成本效益优先的情况下。
主要特点
- 最大token数:支持高达300k个token
- 语言:兼容200多种语言
- 微调:完全支持文本、图像和视频输入的微调
亚马逊Nova Pro
亚马逊Nova Pro是一个高度能力的多模态模型,具有最佳组合的准确性、速度和成本,适用于广泛的任务。亚马逊Nova Pro的能力,结合其行业领先的速度和成本效益,使其成为几乎任何任务的强大模型,包括视频摘要、问答、数学推理、软件开发和能够执行多步骤工作流的AI代理。除了在文本和视觉智能基准测试中的最先进准确性外,亚马逊Nova Pro在指令遵循和代理工作流方面表现出色,如综合RAG基准测试(CRAG)、伯克利函数调用排行榜和Mind2Web所测量。
主要特点
- 最大token数:300k
- 语言:200多种语言
- 微调支持:是,支持文本、图像和视频输入。
亚马逊Nova Premier
最强大的多模态模型,用于复杂推理任务,并作为蒸馏定制模型的最佳教师。亚马逊Nova Premier仍在训练中,目标在2025年初可用。
创意内容生成:将概念变为现实
亚马逊Nova套件包括两个尖端模型,用于创建现实的多模态内容,适用于广告、营销和娱乐等多种应用:
亚马逊Nova Canvas
一个最先进的图像生成模型,设计用于生成高质量视觉内容,具有精确的风格和内容控制。亚马逊Nova Canvas在创意灵活性方面提供了先进功能,并在TIFA(文本到图像忠实度评估)和ImageReward等基准测试中表现出色。
主要功能
- 文本到图像生成:生成分辨率从512p到2K水平分辨率的图像,支持灵活的长宽比(1:4到4:1),最大420万像素,允许客户提供参考图像以指导模型的风格、调色板或创建变体。
- 图像编辑:提供精确的编辑功能,如使用自然语言掩码提示进行修复和扩展,以针对特定区域进行修改,包括背景去除,以无缝替换或调整背景,同时保留主体。
亚马逊Nova Reel
一个最先进的视频生成模型,设计用于创建专业质量的视频内容。亚马逊Nova Reel在视频质量和一致性的人类评估中优于现有模型。
主要功能
- 从文本提示生成视频:创建6秒的视频,分辨率为720p,每秒24帧。
- 从参考图像和提示生成视频:结合静态图像和文本输入,生成动态的引导运动。
- 相机运动控制:提供超过20种相机运动效果,如“缩放”和“向前推”,通过文本提示引导,提供对视觉动态的精确控制。
亚马逊Nova:基准测试和结果
亚马逊Nova模型在核心和代理文本基准测试中表现出色,在MMLU、ARC-C和GSM8K中表现优异。与GPT-4和Claude等领先模型相比,Nova在准确性、推理和任务执行方面设定了新标准。
核心能力文本基准测试和结果
定量结果包括MMLU、ARC-C、DROP、GPQA、MATH、GSM8K、IFEval和BigBench-Hard(BBH)等核心能力基准测试。除非另有说明,参考值来自Claude、GPT-4、Llama和Gemini模型的技术报告和网站。标记为M的结果是独立测量的,而Claude的IFEval分数由于未指定的评分方法而标记为星号(?)。
代理文本基准测试和结果
来自伯克利函数调用排行榜(BFCL)v3的结果,截至2024年11月17日更新,包括当时可用的最新模型版本。对于Llama 3.2 11B和90B,由于共享文本LLM,使用了Llama 3.1 8B和70B的排行榜结果。
使用亚马逊Nova Pro进行文档分析
为了展示文档分析的能力,我从Analytics Vidhya博客下载了这篇题为《以原子方式构建代理!》的文章的PDF格式。
首先,我在Amazon Bedrock控制台的模型访问部分请求访问新的亚马逊Nova模型。接下来,在Playground部分,我选择了Chat/Text选项,并选择了亚马逊Nova Pro模型。然后,我上传了决策指南PDF并询问:
“用100字总结这篇文档。然后,构建一个决策树。”
输出
输出遵循我的指示,生成了一个结构化的决策树,让我在阅读文档之前对其有了初步了解。
使用亚马逊Nova Pro进行视频分析
为了展示视频分析,我将输入一个视频到输入中:
“视频中发生了什么?”
输出
在视频开始时,有三只猫在窗台上。一只猫是灰色和白色,一只猫是棕色和白色,一只猫是白色。白猫在窗台的右侧。猫们看向不同的方向。背景中有一些植物和树木。
随着视频的进展,猫们继续站在窗台上。白猫移动到窗台的中间。猫们继续看向不同的方向。背景中的植物和树木保持不变。
Nova Pro API
我可以使用更详细的提示从视频中提取特定信息,如对象或文本。请注意,亚马逊Nova目前不处理视频中的音频。
我还可以使用AWS SDK for Python(Boto3)通过Amazon Bedrock Converse API调用亚马逊Nova Pro模型并分析视频。请确保在您的系统中正确配置了AWS以使用API。此外,请验证您是否有执行操作的权限。
使用亚马逊Nova Reel创建视频
现在,让我们使用亚马逊Nova Reel创建一个视频,从仅文本提示开始,然后提供参考图像。由于生成视频需要几分钟,Amazon Bedrock API引入了三个新操作:
- StartAsyncInvoke:启动视频创建。
- GetAsyncInvoke:跟踪创建状态。
- ListAsyncInvokes:列出所有正在进行或完成的视频任务。
亚马逊Nova Reel支持相机控制动作,如缩放或移动相机。这个Python脚本从以下文本提示创建视频:
“一个色彩缤纷的花园,有玫瑰、向日葵、郁金香和薰衣草在阳光下摇曳。相机放大捕捉每朵花的细节。”
在第一次调用后,脚本定期检查状态,直到视频创建完成。我传递了一个随机种子,以便每次代码运行时获得不同的结果。
使用参考图像创建视频
为了更好地控制视频的创建,我可以为亚马逊Nova Reel提供参考图像,例如以下内容:
提供的图像必须具有[1280×720]的尺寸。
这个脚本使用参考图像和带有相机动作的文本提示(无人机视角,然后放大到蜜蜂坐在花朵上)来创建视频:
负责任地构建AI
亚马逊Nova模型在设计时强调了客户安全、安全和信任,确保安心和灵活性,以支持多样化的使用场景。
通过强大的安全功能和内容审核能力,亚马逊Nova为您提供了负责任地采用AI的必要控制。这些模型生成的每张图像和视频都包括数字水印,以增加透明度。
为了匹配亚马逊Nova基础模型的先进能力,全面的保护措施已经到位。这些保障措施积极解决关键问题,如错误信息、儿童性虐待材料(CSAM)以及与化学、生物、放射或核(CBRN)威胁相关的风险。
结束语
亚马逊Nova在我的实际体验中证明是一个强大的工具。从分析文档到创建高质量视频,这些模型展示了令人印象深刻的速度、准确性和多功能性。特别是视频分析,其详细且富有洞察力的输出远远超出了我的预期。
现在,我很想听听您的意见!您有机会尝试亚马逊Nova吗?您对其性能、功能或任何特定任务的测试有何看法?请在下面的评论部分告诉我。
版权声明:
作者:5ifenxi
链接:https://5ifenxi.com/archives/1716.html
来源:爱分析网(5iFenXi.com)
文章版权归作者所有,未经允许请勿转载。