商务服务
经典论文阅读(7)——NEZHA
2024-12-29 20:53

 

论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding – arXiv Vanity

NEZHA基于BERT,并进行了一系列改进,包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。

预训练NEZHA模型

功能相对位置编码

在基础Transformer的基础上,提出了一种参数相对位置编码,在相对位置编码方案中,注意得分的计算涉及到两个位置之间的相对距离的参数嵌入。公式如下

在NEZHA的当前版本中,我们采用函数相对位置编码,其中输出和注意得分的计算涉及到相对位置的正弦函数。公式如下,其中a_{ij}为

全词mask

全词mask即WWM的策略是一旦一个汉字被屏蔽,属于同一汉字的其他字符都被屏蔽在一起。在实现NEZHA版本的WWM时,我们用jieba对中文进行分词。

混合精度训练

传统的深度神经网络使用FP32(即单精度浮点格式)。混合精度训练维护模型中权重的单精度副本(即主权重,在每次训练迭代中,它将主权重四舍五入成FP16,并使用存储在FP16格式中的权重、激活和梯度执行前向和后向传递。最后,将梯度转换为FP32格式,并使用FP32梯度更新主权重。

LAMB优化

LAMB优化器是针对深度神经元网络的大批量同步分布式训练而设计的。LAMB优化器采用一般的适应策略,同时提供洞察收敛的理论分析。优化器通过使用非常大的批处理大小(中超过30k)来加速BERT的训练,而不会导致性能损失。

实验

使用的预训练数据包含:中文维基、百度百科、中文新闻。

结论

    以上就是本篇文章【经典论文阅读(7)——NEZHA】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/12333.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
过年无忧 | 一键get这些春节话术!
一键Get这些春节话术~过年无忧新年快乐春节将至,年味渐浓在这温馨又热闹的节日氛围里我们既能品尝各式各样的美味佳肴沉浸于味
2025在新加坡生活的我们将迎来“至暗时刻”:房租飙涨、每个月入不敷出…
聚焦新加坡真是开年暴击!2025年刚开始,还没过新年呢,万事通就出了一身冷汗:今年又是一个物价涨涨涨的年份。在网上一搜“新加
太抽象!太抽象!2024年游戏行业简直太抽象!
年末,DataEye研究院今天整点活,轻松一波。——用数据、新闻盘点2024年国内游戏业有多抽象。回首2024年有产品研发8年烧了数亿,
TikTok会如何收场
TikTok的命运再次悬而不决。在美国下架12小时又恢复运营之后,1月20日,美国总统特朗普签署行政命令,要求TikTok「不卖就禁」法
今天上午10:00,成绩发布!
早安,东台!‍今天是2025年1月22日‍星期三(农历腊月廿三)大美东台,活力满满进取创新、奋斗拼搏最近有哪些新动态?和小东一
农村土地托管服务的理论基础
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
头上三尺有神明,每个人头顶都有一颗星,当星光消失人也就消失!
每当夜晚降临后,我们抬头看天空,会看到满天的星星,自古以来,人们从没有停止过对星象的观测和研究。古人观测星象,一则是为了
运营师抖音代运营
运营师抖音代运营:掌握流行短视频潮流的神奇职业短视频平台已经成为人们娱乐、学习和社交的重要方式。在众多的短视频平台中,抖
微短剧,2024年“最大赢家”? | 年终盘点
2024,短剧行业大变样。作者 | 张语格编辑 | 趣解商业文娱组“互联网大厂争相入局。”“98%的短剧制作方都在亏钱。”“用户被免
同类第一!20%弹性的人工智能 ETF 科创(588760)今日上市,一键布局科创板优质AI龙头
  最新公告内容显示,广发上证科创板交易型开放式指数投资基金(基金代码:588760;扩位简称: ETF 科创)已于 2025 年 1 月 1