推广 热搜: page  关键词  数据分析  服务  数据分析系统  搜索  获取  哪些  链接  搜索引擎 

经典论文阅读(7)——NEZHA

   日期:2024-12-29     作者:z766g    caijiyuan   评论:0    移动:https://sicmodule.kub2b.com/mobile/news/12333.html
核心提示:  论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding – arXiv Vanity NEZHA

 

论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding – arXiv Vanity

NEZHA基于BERT,并进行了一系列改进,包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。

预训练NEZHA模型

功能相对位置编码

在基础Transformer的基础上,提出了一种参数相对位置编码,在相对位置编码方案中,注意得分的计算涉及到两个位置之间的相对距离的参数嵌入。公式如下

在NEZHA的当前版本中,我们采用函数相对位置编码,其中输出和注意得分的计算涉及到相对位置的正弦函数。公式如下,其中a_{ij}为

全词mask

全词mask即WWM的策略是一旦一个汉字被屏蔽,属于同一汉字的其他字符都被屏蔽在一起。在实现NEZHA版本的WWM时,我们用jieba对中文进行分词。

混合精度训练

传统的深度神经网络使用FP32(即单精度浮点格式)。混合精度训练维护模型中权重的单精度副本(即主权重,在每次训练迭代中,它将主权重四舍五入成FP16,并使用存储在FP16格式中的权重、激活和梯度执行前向和后向传递。最后,将梯度转换为FP32格式,并使用FP32梯度更新主权重。

LAMB优化

LAMB优化器是针对深度神经元网络的大批量同步分布式训练而设计的。LAMB优化器采用一般的适应策略,同时提供洞察收敛的理论分析。优化器通过使用非常大的批处理大小(中超过30k)来加速BERT的训练,而不会导致性能损失。

实验

使用的预训练数据包含:中文维基、百度百科、中文新闻。

结论

本文地址:https://sicmodule.kub2b.com/news/12333.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号