
你可能没听说过“词元”这个词,但你几乎一定用过它。你或许对它的英文名更熟悉——Token。

今天上午,国务院新闻办公室举行新闻发布会,介绍第九届数字中国建设峰会有关情况。国家数据局局长刘烈宏透露,截至今年3月,我国日均Token调用量已超过140万亿。他特意补充了一句——“也就是词元的调用量”。

这被不少业内人士解读为一个标志性时刻:Token这个AI领域最核心的技术术语,终于有了官方认可的中文名字。

140万亿是什么概念?Token又是什么?为什么它的调用量会被官方当作一个关键指标来发布?这些问题正悄悄揭开一个属于普通人的新世界。
词元(Token)是大模型处理信息的“最小信息单元”,具备可计量、可定价、可交易的核心特征。对于不常接触AI领域的人来说,这段话还是有些抽象。几位AI大模型给出了通俗易懂的解释:
千问将大模型比作超级大厨,把信息比作食材,词元则是大厨眼中“一口能吃掉的最小单位”。词元是AI理解和生成信息的最小计量单位。你问AI一个问题,它“吃”进去多少个词元,又“吐”出来多少个词元,就是它的工作量。
元宝则把Token想象成AI世界里的“字”或“词”,是对文字、符号甚至图片的一小段信息的切分结果。例如,“今天天气不错。”在AI内部会被拆成几个词元:“今”“天”“天气”“不”“错”“。”这些词元是AI用来理解和生成内容的“最小砖块”。
豆包认为可以把它理解成AI的“积木”,不管是文字、语音、图片、视频,AI都会先把内容拆成一个个“词元积木”,再用这些积木拼接、推理、生成结果。
Gmini说词元(Token)是人工智能理解和生成人类语言的“乐高积木”或“原子”。我们需要把人类的一句话切碎成一小块一小块的“基本单元”,然后再喂给AI,这个“基本单元”就是词元“Token”。
Claude则比喻Token是AI“读”和“写”时的最小咬合单位,相当于AI嘴里嚼的一小口饭。我们人类读一句话是整句整句地理解,但AI必须先把语言“嚼碎”成一小块一小块,才能消化,这一小块就是一个词元。
浙江大学国际校区隐形冠军国际研究中心行政主任相渊表示,词元是AI读文字、说话的最小单位,相当于它的“语言小颗粒”。你跟AI聊天、写段话,都在消耗这个东西。如果你用过AI帮你写周报、问菜谱、翻译英文邮件,那么每一次对话的背后,都有成千上万个词元在飞速流转。
在科技圈,Token一度是个让翻译者头疼的词。浙江大学长三角智慧绿洲创新中心未来设计实验室执行主任、浙江大学人工智能学院教授柴春雷说,它在不同场景下含义不同:在网络安全里叫“令牌”,在区块链里叫“代币”,到了大模型领域,过去有人译作“标记”,也有人干脆不翻用英文。
这次官方选定的“词元”,被不少语言学和计算机学者认为翻得漂亮。柴春雷说:“Token如果直接翻译成‘令牌’,普通人听不懂;如果翻译成‘词’,又不准确,因为一个Token有时只是半个词或一个标点。‘词元’组合在一起,既保留了语言的色彩,又体现了它作为‘计算逻辑单元’的严谨性。”
相渊也表示认同,“词”说明它属于语言领域,和文字、语言有关,“元”则是最小、最基础的单位,就像“像素”是图像的最小单元,“词元”就是AI处理语言的最小单元。两个字精准且好记。
日均140万亿次的词元调用量,相当于全国每人每天平均调用了约10万个词元。而与AI对话一次,通常消耗几百到几千个词元不等。这意味着AI已经深深嵌入了我们的日常生活,只是很多人还没意识到。
国家数据局在发布会上的数据还让人联想到另一组经典指标——用电量。回望工业时代,衡量一个地区的发展水平看它的“用电量”;而在数字经济和人工智能时代,衡量一个社会智能化程度的标尺很可能是“词元调用量”。
事实上,目前市面上大模型API的计费方式已经在按词元计价。输入多少词元、输出多少词元,明码标价。未来,你可能会收到一份Token账单,代表你本月动用了多少AI大脑来协助工作和生活,就像现在每个月交水费、电费一样,未来我们或许也要为自己消耗的词元买单。
杭州一家AI创业公司的技术负责人表示,未来的普通用户可能不需要知道“词元”这个词,但他们的每一次智能交互,不管是语音助手、智能客服还是AI搜索,背后消耗的都是词元。它就像自来水管里的水,你拧开龙头就有,但不太会去想水厂的事。
从Token到词元,从一个圈内术语到登上国新办发布会,不仅仅是一个新词的出现,更是一个明确的信号:人工智能正在以前所未有的速度融入中国人的日常。国家数据局指出,当下,围绕词元的调用、分发与结算,一套新的价值体系正在加速演进形成,并成为人工智能产业商业化的重要路径。我国日均词元调用量的大幅增长也表明,随着数据要素市场化配置改革的纵深推进,人工智能高质量数据的供给体系正在形成,“数据供给—价值释放”的良性循环初显。
140万亿只是一个起点。在这个由“词元”构筑的数字新世界里,我们才刚刚启程。
网眼查提示:文章来自网络,不代表本站观点。