GPT-4参数揭秘：1.8万亿参数训练成本高达6300万美元-3809游略网

近日，OpenAI今年3月发布的GPT-4大模型的详细参数和信息被揭秘。据了解，GPT-4在120层中总共包含了1.8万亿参数，相比之下，GPT-3只有约1750亿个参数。为了保持合理的成本，OpenAI采用混合专家模型来进行构建。混合专家模型是一种神经网络，该系统根据数据进行分离训练多个模型，在各模型输出后，系统将这些模型整合输出为一个单独的任务。GPT-4使用了16个混合专家模型，每个有1110亿个参数，每次前向传递路由经过两个专家模型。此外，GPT-4有550亿个共享注意力参数，使用了包含13万亿tokens的数据集训练，tokens不是唯一的，根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k，32k版本是对8k微调的结果，训练成本相当高。据报道，8x H100也无法以每秒33.33个Token的速度提供所需的密集参数模型，因此训练该模型需要导致极高的推理成本，以H100物理机每小时1美元计算，那么一次的训练成本就高达6300万美元（约4.51亿元人民币）。为此，OpenAI选择使用云端的A100 GPU训练模型，将最终训练成本降至2150万美元（约1.54亿元人民币）左右，用稍微更长的时间，降低了训练成本。

GPT-4参数揭秘：1.8万亿参数,训练成本高达6300万美元