1.ELMO微调2.微调阶段下游任务:用训练好的模型继续之后的任务E=r(S1*E1(词特征)+S2*E2(句特征)+S3*E3(语义特征))注意:ELMO并不是把文本编码成向量之后,直接作为下游任务模型输入,而是将ELMO编码的向量作为新的单词特征补充到下游任务。ELMO是基于特征的微调。2.Bert微调:bert通过bert模型,可以编码得到一个句子的句子向量,那么我们不会像ELMO一样把这个向量作为新特征补充到下游任务,而是直接将该向量作为下游任务的输入。当最终代价产生的时候,反向传播,就会将梯度传到句子向量cls上,那么就会更新到bert里边的参数。因此叫做基于微调的模型。 3.GPT微调:GPT通过GPT模型,可以编码得到一个句子的句子向量,那么我们不会像ELMO一样把这个向量作为新特征补充到下游任务,而是直接将该向量作为下游任务的输入。当最终代价产生的时候,反向传播,就会将梯度传到句子向量cls上,那么就会更新到GPT里边的参数。因此叫做基于微调的模型。
下一篇:RTSP视频绘图 -- 笔记