Meta发布Llama 3.1 405B：近年来最大的开源AI模型

在August 31, 2024上更新 1分钟阅读

Llama 3.1 405B是一个开源AI模型，拥有4050亿个参数，是[Meta](https: //en.wikipedia.org/wiki/Meta_Platforms）目前已发布。它不是总体上最大的模型，但它是最近推出的最大的开源模型。 Llama 3.1 405B 利用新的方法，在 16,000 个 Nvidia H100 GPU 上进行训练，可以与 Anthropic 的 Claude 3.5 Sonnet 和 OpenAI 的 GPT-4o 等顶级专有模型相媲美。该模型可以在Google Cloud、AWS、Azure等云计算平台上下载和使用。它还使用 WhatsApp 和 Meta.ai 集成到美国的聊天机器人中。

虽然 Llama 3.1 405B 仅限于基于文本的活动，但它可以执行广泛的任务，包括编码和多语言文档摘要（英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语）。虽然这些目前还无法公开访问，但 Meta 正在积极开发多模式 Llama 模型来处理照片、视频和语音。该模型使用合成数据进行了强化，这很常见，但引发了有关潜在偏差的问题，然后对 15 万亿个代币的精细样本进行了训练。

由于其 128,000 个令牌上下文窗口，该模型可以有效地处理较长的输入并保留对话上下文。 Llama 3.1 8B 和 Llama 3.1 70B 是较小的型号，除了具有扩展的上下文功能之外，还可以利用第三方工具和 API 来提高其适应性。这些模型可以与 Python 解释器进行通信以进行代码检查、Brave Search 以及与 Wolfram Alpha 进行数学问题通信。

Meta 希望围绕 Llama 创建一个开发者生态系统，使其成为生成式 AI 的支柱。由于对大型开发人员的部署存在一些限制，新许可证允许开发人员使用模型输出来开发第三方生成模型。为了促进微调、生成合成数据和开发复杂的应用程序，Meta 还发布了新的安全工具和 [Llama Stack API。](https://github.com/meta-llama/llama-agentic-system ）

首席执行官马克·扎克伯格（Mark Zuckerberg）高度重视人工智能的普及，同时将 Meta 的人工智能技术确立为行业规范。尽管存在法律问题和对数据实践的担忧，但已经下载了超过 3 亿个 Llama 模型，并制作了 20,000 个变体模型。

由于训练会给电网带来压力，因此在扩展这些模型时会出现能源困难。由于 Meta 打算在未来构建更大的模型，因此解决这些困难至关重要。随着 Llama 3.1 405B 的发布，Meta 朝着其人工智能战略迈出了重要一步，该战略旨在突破生成式人工智能的界限并挑战竞争对手。