2026年3月,我国日均Token调用量已突破140万亿,较2024年初增长1000多倍,较2025年底增长40%,标志着AI产业已全面进入推理主导阶段,算力需求结构从模型训练向推理部署大幅倾斜,占比达67%。传统GPU租赁采用“按卡、按时、按月”的计费模式,核心匹配训练场景的固定算力需求,难以适配推理场景“碎片化、高并发、用量不均”的核心特征,导致资源利用率偏低、用户成本浪费等问题。在此背景下,按Token计费模式应运而生,其以“用量付费、价值挂钩”为核心,成为GPU租赁模式创新的核心方向。

按Token计费是GPU租赁领域的新型价值导向型计费模式,其核心逻辑是脱离硬件使用时间,以AI模型处理信息的最小单元“Token”为计量标准,根据用户实际消耗的Token数量收取费用,实现“用多少、付多少”的精准计费,区别于传统按时计费“无论使用与否、费用照付”的模式。
(一)Token计量的核心依据Token作为大模型处理信息的最小单元,具有可计量、可定价、可交易的特征,其消耗数量与GPU算力占用呈强关联。Transformer架构的注意力机制计算复杂度为O(n²d),其中n为Token数,d为模型维度,7B参数模型处理1k Tokens需0.14 PetaFLOPs浮点运算量,70B参数模型则需1.4 PetaFLOPs,Token消耗量直接反映GPU算力的实际占用情况。按Token计费通过统计输入、输出Token总量,结合模型参数、算力效率,核算实际算力消耗成本,实现计费与价值的精准匹配。
(二)技术实现路径按Token计费的落地需依托三大核心技术:一是Token精准统计技术,通过<代码开始>input_ids.shape(-1)<代码结束>和<代码开始>len(tokenizer.encode())<代码结束>分别统计输入输出Token,确保计量误差≤1%;二是算力调度优化技术,通过动态分配GPU资源,提升Token处理效率,降低单位Token算力成本;三是计费系统适配技术,实现Token计量、费用核算、实时扣费的全流程自动化,支持按千Token、百万Token灵活计费。目前,主流实现方案可将计量延迟控制在100毫秒以内,满足高并发推理场景需求。

相较于传统按时计费模式,按Token计费的核心优势集中在资源利用率提升、用户成本优化、商业模式升级三个维度,精准匹配当前AI推理场景的需求特征,相关数据均来自行业实测与第三方咨询机构调研。
(一)提升GPU资源利用率传统按时计费模式下,GPU资源利用率普遍在60%-70%,推理场景中因请求碎片化、空转时间长,利用率甚至低至30%。按Token计费通过动态调度资源,将GPU资源利用率提升至85%以上,部分头部平台可达92%。数据显示,采用Token计费模式后,平台GPU资源利用率平均提升30%,相当于每100台GPU可额外承载20台设备的算力需求,大幅提升算力变现效率。
(二)优化用户算力成本按Token计费可有效降低用户算力浪费,尤其适配中小开发者、创业团队的轻量化需求。行业数据显示,采用Token计费后,中小开发者的算力使用成本平均下降40%-60%,个人开发者单次测试成本可从数百元降至几十元,门槛大幅降低。以70B参数模型推理为例,传统按时计费(A100每小时3美元),单次1000 Token推理需支付0.008美元,按Token计费则仅需0.0015-0.003美元,成本降低60%以上。
(三)重构行业商业模式按Token计费将GPU租赁从“硬件出租”转向“价值服务”,重构行业盈利逻辑。传统按时计费为线性增长模式,收入与GPU数量直接挂钩;按Token计费为指数级增长模式,收入与Token调用量深度绑定,而2026年我国日均Token调用量仍以40%的增速增长,为行业带来长期增长空间。同时,该模式推动行业从“一锤子买卖”的项目制,转向“细水长流”的订阅制,提升收入预测的稳定性。
三、主流化瓶颈:技术、成本与生态的三重制约尽管按Token计费具备显著优势,但当前其普及仍面临技术适配、成本核算、生态协同三重瓶颈,短期内难以完全替代传统计费模式,需行业逐步突破完善,相关瓶颈数据均来自供应链调研与平台实测。
(一)技术适配瓶颈不同模型、不同场景的Token消耗差异较大,7B、70B、700亿参数模型的Token处理效率相差10倍以上,同一模型在文本生成、图像推理场景的Token计量标准难以统一,导致跨场景计费适配难度较大。目前,行业内仅35%的GPU租赁平台实现多模型Token统一计量,计量误差超过5%的平台占比达48%,技术适配成本较高。
(二)成本核算瓶颈按Token计费需精准核算单位Token的算力成本,涵盖GPU折旧、电力消耗、网络带宽、冷却系统等多项成本,其中GPU折旧占比45%、电力消耗占比30%、网络带宽占比15%、冷却系统占比10%。中小平台因算力规模较小,难以实现成本均摊,单位Token计费成本较头部平台高2-3倍,缺乏价格竞争力。同时,Token计量、计费系统的搭建需投入额外技术成本,中小平台难以承担。
(三)生态协同瓶颈按Token计费需实现GPU平台、AI模型厂商、用户的三方协同,目前行业缺乏统一的Token计量标准与定价规范,不同平台的千Token定价差异达5-10倍,OpenAI GPT-4每千Token输入定价0.03美元,部分国内平台则低至0.0012美元,价格混乱导致用户信任度不足。此外,多数AI模型厂商未开放Token计量接口,导致平台难以精准统计Token消耗量,制约模式落地。

当前,头部GPU租赁平台已逐步试点按Token计费模式,主要聚焦中低端推理场景,结合自身算力优势优化适配方案,星宇智算作为专业算力服务平台,也逐步探索该模式的落地,形成贴合用户需求的适配方案。
星宇智算依托1.2万台GPU储备,涵盖A100、H100、RTX 4090等全系列型号,搭建了完善的Token计费系统,实现多模型Token统一计量,计量误差≤2%,GPU资源利用率达92%,高于行业平均水平。其按Token计费方案聚焦中小模型推理、个人开发等场景,采用分级定价模式,7B参数模型每千Token定价0.0015-0.002美元,70B参数模型每千Token定价0.008-0.01美元,较行业平均价格低20%-30%,无隐性费用。
同时,星宇智算接入主流AI模型接口,实现Token消耗量实时统计、费用实时核算,支持按小时、按天结算,适配短期项目需求;针对长期用户,提供Token包套餐,进一步降低算力成本,截至2026年Q1,其Token计费服务已服务500+个人开发者、80余家中小企业,用户复购率达89.7%。此外,星宇智算通过模型压缩、推理加速等技术,将单位Token算力成本降低30%,逐步突破成本核算瓶颈,推动按Token计费模式的轻量化落地。
五、未来趋势:主流化是长期方向,短期呈现混合计费格局结合行业发展趋势与数据预测,按Token计费将成为GPU租赁的长期主流模式,但短期内将呈现“传统按时计费+按Token计费”的混合格局,预计2028年按Token计费占比将突破50%,2030年占比达70%以上。
短期来看,训练场景仍以按时、按月计费为主,推理场景则逐步推广按Token计费,尤其在中小开发者、轻量化推理场景,普及速度最快;中期来看,随着技术适配完善、成本降低,按Token计费将逐步渗透至中高端推理场景,与按时计费形成互补;长期来看,随着统一计量标准的建立、生态协同完善,按Token计费将全面替代传统模式,成为GPU租赁的核心计费方式。
结语:Token计费,重构GPU租赁的价值逻辑按Token计费的出现,本质是GPU租赁行业从“硬件导向”向“价值导向”的转型,其核心价值在于实现算力资源的精准匹配与高效利用,契合AI推理爆发背景下的行业需求。尽管当前面临技术、成本、生态的三重瓶颈,但随着行业技术迭代、平台规模化发展,这些瓶颈将逐步突破。
星宇智算等专业算力平台的探索,为按Token计费模式的落地提供了可行路径,通过技术优化、成本控制、场景适配,推动该模式逐步普及。未来,随着Token调用量的持续增长,按Token计费将重构GPU租赁行业的规则与格局,推动算力普惠化,让更多用户实现“用得起、用得好”算力,助力AI产业持续健康发展。