大模型基础知识
神经网络:线性计算+非线性判断
万能近似定理:三层神经网络(即一个输入层、一个隐藏层和一个输出层)在理论上可以近似任意复杂(有限维度)的决策边界。
- 训练
通过大量已知的数据来调整模型参数,使其能够更准确的对新数据进行预测
定义损失函数,按照减少损失的方向调整参数。(梯度下降法)
要有一个好的模型结构 - 推理
使用训练好的参数,对新的数据进行预测
深度神经网络通过更多层次的结构,可以用较少的参数捕捉到更为复杂的特征关系,提升参数效率一些特殊的结构,如:CNN、RNN、Transformer等,可以引导模型用更少的参数捕捉特定的特征
大模型核心算子:矩阵乘
批量进行神经元的线性计算:y=xw^T+b(w^T是w的转置) 是大模型计算中总耗时最长的算子
假如输入x长度为K,中间层维度为N,那么权重矩阵的大小就是K x N。实践中我们可以对M个输入一起进行计算,即M x K的输入和K x N的权重进行矩阵乘
大模型结构
与传统神经网络的区别:
- 输入是任意个数的向量,输出是任意(可与输入不同)个数的向量
- 向量之间推理是相互影响的
Encode:根据词表,将文本转换为token-id序列
Decode:将token-id还原成文本