AI教育|大语言模型LLM 背后原理是什么?教师:改变人类的文字接龙|星岛教室

发布时间:2026-03-25 15:20

如果你曾玩过早期的角色扮演游戏(RPG),一定有过这种让人抓狂的体验:你来到城堡门口,面对守门的小兵。他回答:你好!请出示通行证。无论你尝试多少种搞怪的互动,得到的都是相同回复。这种对话撞墙的感觉,是因为传统游戏背后是一套固定剧本。玩家一旦做出剧本预设以外的行为,系统就会因为找不到对应指令而跳针,完全无法沟通。然而,随着大语言模型的出现,这场对话的规则被彻底颠覆了。现在的AI就像人类,不再被动地进行条件匹配,而是能真正理解你的意图。

AI教育0

何谓“大语言模型”?

谈及现时广为人知的AI,大家常提起的不外乎是ChatGPT、DeepSeek、豆包等等,但大家又知否它们其实是什么?是AI、模型,还是一个程序、系统?

其实,它们本质上都是一种“大语言模型”(Large Language Model,简称LLM)。要拆解这个充满科技感的名词,我们得从它的三个字面意义看起,这能帮助我们看清它的真面目:

“大”——数据与参数的双重巨大:这里的“大”有两层意义︰1. 数据量大,它读过的文字量,来自网络上海量的资料,包括新闻报道、书籍论文、甚至是大家在网络论坛上的讨论;2. 参数规模大,参数就像人工智能大脑里的神经元连接点,数量高达数千亿个,参数越多,模型捕捉逻辑及理解能力就越强。

“语言”——掌握沟通规律:它专门学习人类说话的规律、语法和情感表达。透过海量的阅读,它不止学会单字,更掌握文字之间的“关联强度”与“逻辑结构”。

“模型”——训练后的科技结晶:当科学家透过“神经网络”及各种复杂算法,从海量的资料中训练出来的成品,就称为“模型”。你可以把它想象成一个装满了知识与规律的“大脑”。

“词元”与“词矢量”

AI教育

当我们与大语言模型对话时,我们输入的是“文字”,但对计算机来说,它其实只认识“0”与“1”。为了让AI能够处理语言,它会经过两个关键转换步骤:

  1. 拆解“词元”(Token)︰在AI开始“读”你的说话之前,它会先把句子分拆。举一个简单例子:输入“我想学写程序”,AI就会将它拆解成“我”、想”、“学”、“写”、“程序”。为什么要拆?因为全球语言有无数种组合,就像我们学习语言一样,比起直接死记硬背一整句长句,我们会先学习当中的词语,再学习如何组合成句子。AI便是透过记住这些词元在海量数据中的组合规律,进而拼凑出各种从未见过、却又合乎逻辑的句子。

  2. 嵌入(Embedding),给文字的坐标系统︰分拆句子后,AI必须理解这些词元的“意义”。这时它会运用一种叫 “嵌入”(Embedding) 的技术,给每个词元分配一组专属的数学矢量坐标。对于不熟悉矢量的读者,你可以想象一个简单的二维坐标系统(如数学课学过的x轴与y轴),只不过在AI的世界中,这个坐标系统不是二维,而是高达数千个维度。

距离代表关系:AI会把意义相近的词(如“猫”与“狗”)放置在空间中距离较近的位置。

方向代表逻辑:逻辑关系相关的词(如“国王”对“男人”,与“女王”对“女人”),在座标的方向上会呈现规律。

当你输入指令,AI其实是在这套坐标系统上进行精准导航。它计算出不同词元之间的数学距离,从而真正“理解”你这句说话背后的意图,而不仅仅是看字面上的符号。而当学习并分拆过来,这些大语言模型的运作模式,其实就像文字接龙,当你给它一个开头,它就在脑袋里根据数千亿个参数的运算,判断下一个出现机率最高的字是什么。

创造力关键:“温度”

AI教育1

既然AI已经把文字变成了坐标,也知道了词元之间的关系,那么它在进行“文字接龙”时,是不是永远都只挑选机率最高的词元呢?如果AI每次都选机率最高的选项,它说话会变得非常死板、甚至不断重复。因此,科学家在模型中加入了一个变量,称为“温度”。这温度不是指冷热的温度,而是控制AI创造力的“旋钮”。

  1. 低温度︰当我们把温度调低,AI就会变得非常保守、谨慎。它在接龙时,几乎只会选择那些机率最高的词元。因此,其说话会变得四平八稳,逻辑极强,不容易出错。

  2. 高温度︰当我们把温度调高,AI的“胆子”就会变大!它不再只看第一名,而是尝试去选择那些机率排在后面、较为罕见的词元。因此,其文字的使用会变得多元,富有创意,甚至会产生让你意想不到的幽默感。

而为什么需要“温度”?正是为了让AI能根据不同的用途与目的,在“准确性”与“多样性”之间取得平衡。我们希望它在回答科普知识时能“低温”以确保准确;而在陪伴我们创作时能“高温”以激发创意。

AI是协作伙伴

最后,我们必须记住一点:既然AI的本质是基于机率的“文字接龙”,它就不可避免地出现“幻觉”(Hallucination)。有时候,为了让对话听起来顺畅,AI会回答一个看似真确,但不是事实的说话。我们应该将它视为一个知识广博的协作伙伴,而非绝对准确的资料来源。

在AI时代,最厉害的人不再是能背出所有答案的人,而是能“定义问题”的人。透过与AI协作,配合自己的分析及见解,保持独立思考而不盲目相信。那么,下一次当你输入指令时,你将不再是被AI带着走,而是利用AI的力量,让自己走得更快、更远。

小思考,大智慧

  1. 为什么大语言模型(LLM)被称为“文字接龙高手”?

  2. 当你想请AI帮你写一首关于“未来学校”的科幻歌曲,你应该调高还是调低“温度”?为什么?

参考答案

  1. 因为LLM的运作本质是基于机率预测。它会根据你输入的指令,从数千亿个参数中计算出下一个出现机率最高的词元(Token),并不断重复这个过程直至组成完整的回答。

  2. 调高温度能让AI的“胆子”变大,尝试选择机率较低、较罕见的词语,从而产生更多元、天马行空且富有创意的内容。

本栏由教育评议会邀请资深中小学老师、校长及大学讲师撰稿,旨在为学生提供多元化的STEAM学习材料,引发学生探求知识的兴趣,将学习融入生活,培养学生的世界观、敏锐的触觉、积极学习的态度。

文:香港道教联合会圆玄学院第三中学STEAM统筹主任陈恩鸿

本文标题原为〈大语言模型 ——改变人类的文字接龙〉。

以上内容归星岛新闻集团所有,未经许可不得擅自转载引用。


编辑︱杨舟