到底Token(词元)是个啥?
Token突然热起来,搜索量急剧增加,今天带您全面了解一下。
词元(Token),是人工智能(AI)大语言模型处理信息的最小基本单元。今年3月,国家数据局正式确认其为AI领域的标准中文译名,此前也常被称为“令牌”或“标记”。
一、通俗理解:AI的“文字积木”
你可以把它理解为AI用来“说话”和“认字”的最小文字积木。
- 人类:看完整的句子、段落。
- AI:看不懂整句,必须先把内容拆分成一个个词元,再进行计算、理解和生成。
二、词元长什么样?
它不是固定的“字”或“词”,而是根据模型规则切分的片段:
中文:通常是 1个汉字、1个词语 或 1个标点。
例:“我爱中国!” → 拆分为 4个词元:[我, 爱, 中国, !]
英文:通常是 完整单词 或 单词的一部分(子词)。
- 例:"running" → 可能拆分为 [run, ing] 两个词元。
- 其他:数字、符号、表情(😊)、空格,都算独立词元。
三、核心作用:三重身份
1. 计算单位:AI所有的思考、写作、翻译,本质上都是在处理词元 。
2. 计量单位:模型有“上下文窗口”限制(如8K、16K),指最多能处理的词元数量。
3. 计价单位:使用AI服务(如API接口)时,通常按输入+输出的词元总量来收费。
四、与“字”、“词”的区别
汉字:固定的书写单位(如“中”“国”)。
词语:固定的语义单位(如“中国”)。
词元:AI专用的计算单位,大小灵活,是为了方便模型计算而存在。
简单来说,词元就是AI世界里的“通用语言货币”,你每跟AI聊一句话,让它写一段文字,都是在“消费”词元。
不久之后,词元就会跟流量,豆包等一样流行!