大模型算法全栈基础篇BaseLLM

type

Post

status

Published

date

Mar 16, 2026

slug

summary

理解LLM的基础算法模型，动手实践过程的Task1

DataWhale组队内容

【教程地址】https://github.com/datawhalechina/base-llm

Task1 NLP理论和环境搭建

NLP发展理论及前景

NLP作为AI应用发展的核心场景之一，让机器理解人类的语言，是一切交互的前提，所谓的图灵测试很大程度也是描绘的NLP参加，从固定模式到分词，从transformer到BERT，到GPT3.0的爆发，算是走入了新的全新的阶段，算是革命性的过程。其价值和意义都很大。

在Mac上安装运行环境

原本的教程里都是以windows为主，我是用mac os，过程也简单走一遍，姑且看着。

安装conda和python

创建新的环境：

conda create -n base-llm python=3.10

base-llm：环境名称，可以根据喜好修改。

python=3.10：本项目推荐使用 Python 3.10 版本。

出现提示时输入 y 回车，等待环境创建完成。

激活环境：

conda activate base-llm

在base-llm环境下安装需要的包

pip install numpy pandas matplotlib scikit-learn jupyter

pip install torch torchvision torchaudio

退出环境：

conda deactivate

如上，大概率不会出啥幺蛾子问题，如果报错找AI问问大概率都能解决。

Task2：分词

分词的目的：

在传统的 NLP 处理流程中，分词是后续所有任务的基础。分词任务的质量，将决定上层建筑（如信息检索、机器翻译、情感分析等）的稳固程度

jieba的工作流程

“图论中的最短路径问题”

1）文本预处理与分块 (cut 方法)

在处理复杂的中文句子前，首先需要“把肉和骨头分开”。cut 函数作为总调度，利用正则表达式 re_han_default 将整个句子切分成连续的汉字区块（如“我在梦里收到清华大学录取通知书”）和非汉字部分（如标点、数字、英文）。非汉字部分直接输出，只有汉字部分才会进入后续的分词流程。

（2）构建有向无环图 (get_DAG 方法)

接下来是“绘制地图”，也就是要找出所有可能的走法。系统会扫描句子，看每个字能组成哪些词。

从“我”（第 0 字）开始，查词典发现能组成“我”（到第 1 字结束）。

当扫描到“清”（第 6 字）时，查词典发现能组成“清”、“清华”、“清华大学”等。

以此类推...

这样，字和字之间就建立起了各种连接（边）。因为我们只能从前向后走，不会回头，也不会绕圈子，所以这张由字（节点）和词（边）构成的网络图，就被称为有向无环图。get_DAG 方法的作用就是生成这样一张包含所有潜在分词路径的“地图”。

（3）计算最优路径 (calc 方法)

地图构建完成后，需要计算哪条路径的概率最大。calc 方法采用动态规划的思想，为了避免重复计算，它从句子的末尾向前反向计算。例如，先看最后一个字“书”，确定其最佳路径；再看倒数第二个字“知”，判断是连着“书”走概率高，还是自己单独走概率高；以此类推直到句首“我”。在这个过程中，算法会计算每个候选词的路径“分数”（由当前词的 log 概率与该词之后剩余句子的最优 log 概率相加而成），并将从每个位置出发的总分最高词语及其结束位置记录在 route 表中。

（4）从路由表中重建结果 (__cut_DAG_NO_HMM 方法)

最后一步就是根据计算好的路线输出结果。__cut_DAG_NO_HMM 方法根据 route 表中记录的“路标”进行路径回溯。例如，从起点“我”开始，最佳路标指向下一个位置，因此切分出 ['我']。随着处理的推进，当遍历到“清”字时，最佳路标指示直接跳过 4 个字（因为“清华大学”作为整体的概率更高），于是切分出 ['清华大学']。最终，系统结合所有切分结果，输出 ['我', '在', '梦里', '收到', '清华大学', '录取', '通知书']。

统计学习时代的方法

隐马尔可夫模型（HMM） 就是解决为了寻找字序列对应的最合理标签序列的问题的经典生成式模型。它能学习到字与标签之间的对应关系（发射概率）以及标签与标签之间的转移关系（转移概率）

当 HMM 开启时，__cut_DAG 方法将动态规划产生的 ['直', '聘'] 序列在缓冲区内拼接成 "直聘"，然后交由 HMM 模型（finalseg.cut）处理，最后 HMM 通过它学到的统计规律，“猜”出这两个字是一个完整的词语，以此弥补了词典法的不足