Meta 训练 Llama 2 烧了多少钱? — 大语言模型训练成本揭秘

Meta 开源 LLM 模型 Llama 2 惊艳亮相, 你是否好奇其训练成本? 本文带你揭秘训练一个 700 亿参数大模型所需的硬件、电力及机房成本, 揭开 AI 烧钱真相!

Llama 2是Meta训练的一个大语言模型,其规模从70亿到700亿个参数不等。截至目前,应该还是最先进的开源LLM模型。

模型仓库的地址:https://huggingface.co/meta-llama

那么,大家会不会好奇,不算人力成本的投入,假如一家公司想要在3个月内,训练出一个类似Llama 2的700亿参数的模型,硬件投入以及电力成本是多少?

在模型介绍页面中,Meta给出了碳排放的数据,因此我们可以直接进行计算:

我们可以看到Llama2训练使用的GPU是A100-80GB。总共的训练时长是300万GPU小时,但假如只进行700亿参数模型的训练的话,是1720320个小时。这款GPU的TDP是350-400W,Meta自己的Power Consumption是按照400W计算的,那我们也按照400W进行计算。

首先,我们的目标是3个月90天内完成训练,那么单块GPU的有效训练时间是90*24=2160。上边提到的总耗时是1720320小时,因此我们大概需要采购1720320/2160=796.44 ,再准备几块热备,直接凑整800块。

按照目前单台服务器8路GPU进行采购,需要100台服务器。服务器价格按照110W人民币单台计算。总共需要1.1亿(这个价格主要参考了浪潮的8路A800低配版本的价格,实际花费可能更高)。不管如何,硬件采购至少需要投入1亿。

单台服务器4U,我们就直接紧紧贴着放置,42U的机柜放10台。总共需要10个机柜。把宽带费啥的全部打包进去,一个机柜按照一年75000计算,三个月的机房成本:10*75000/4=18.7W。

接下去算电费,每台服务器8块GPU,满载功率400W*8=3200W,再加上200W的服务器开销,大概3400W,总共100台340000W。

90天等于90 x 24 = 2,160小时。总电能消耗(kWh)= 340,000 W × 2,160小时 / 1,000。总电能消耗(kWh)= 734,400 kWh。340,000瓦特的功率在90天内总共消耗了734,400千瓦时的电。

数据中心机房收费标准以商业用电标准进行收费,2023年商业用电标准为0.6元/度。因此电费:440640大概44万元人民币。

总结,要想在3个月内训练出一个700亿参数的模型。硬件单次的投入至少需要1亿,机房成本大概18W,电费44万。

NVIDIA to the moon