大模型推理系统

大模型基础知识

神经网络：线性计算+非线性判断

万能近似定理：三层神经网络(即一个输入层、一个隐藏层和一个输出层)在理论上可以近似任意复杂(有限维度)的决策边界。

深度神经网络通过更多层次的结构，可以用较少的参数捕捉到更为复杂的特征关系，提升参数效率一些特殊的结构，如:CNN、RNN、Transformer等，可以引导模型用更少的参数捕捉特定的特征

大模型核心算子:矩阵乘

批量进行神经元的线性计算:y=xw^T+b（w^T是w的转置）是大模型计算中总耗时最长的算子

假如输入x长度为K，中间层维度为N，那么权重矩阵的大小就是K x N。实践中我们可以对M个输入一起进行计算，即M x K的输入和K x N的权重进行矩阵乘

与传统神经网络的区别：

Encode:根据词表，将文本转换为token-id序列
Decode:将token-id还原成文本

1740448689488