商务服务
【精读系列】GloVe: Global Vectors for Word Representation
2025-01-02 17:15

本论文介绍了一种基于计数统计的词向量学习方法 GloVe,作者实验说明效果优于 Word2Vec 模型。
阅读完成时间:20221109

一些预备知识或者是常用知识

GloVe 模型属于 count-based method,所谓 count-based method 一般指利用两个词一起出现的次数统计信息;

Word2Vec 模型属于 prediction-based method,一般指神经网络方法,根据一些词预测新词。



word analogy 为词的类比任务,word similarity 为词的相似性任务,Named Entries Recognition 为命名实体识别,这三个任务用于验证词向量的优劣

word analogy:该任务考察用词向量来推断不同单词间的语义关系,举个直观的例子,。(The word analogy task consists of questions like, “a is to b as c is to ?”)。任务流程为,对于 计算出词向量,找到与该词向量最相似的单词(的词向量)作为唯一匹配,只有与给定匹配结果一致才算选择正确。

word similarity:该任务评估两个词向量之间的语义紧密关系和相关性。任务流程为,计算词向量间的余弦值作为相似性分数,计算人工标注好的两两单词的相似度分数与余弦分数之间的斯皮尔曼相关系数(Spearman’s rank correlation coefficient),以评估词向量的优劣。



long tail:长尾分布,少部分的类别占据了大部分样本数量,大部分类别只占据很少的样本。

power-law:幂律分布,图像体现为长尾,与齐夫(Zipf)定律图像类似。

generalized harmonic number:广义调和级数,,有的认为 也为广义调和级数。

Riemann zeta function:黎曼 函数, 。



Symmetric context:能扩展到目标词左右词的窗口为对称窗口。

Asymmetric context:只扩展到左边的上下文窗口称为非对称窗口。



log-bilinear model:对数双线性模型,简称LBL。

Given the context , the LBL model first predicts the representation for the next word wn by linearly combining the representations of the context words:

is the real-valued vector representing word .

Then the distribution for the next word is computed based on the similarity between the predicted representation and the representations of all words in the vocabulary

网上对于对数线性函数的定义形式和名称由来都没有很好的解释。

个人收获

state-of-the-art:最先进的。多篇论文都用到了这个词。

outperform:超过。



未知模型:(可以作为学习列表)

① Hyperspace Analogue to Language (HAL)

② COALS Rohde

③ PPMZ 2007

④ HPCA

⑤ vLBL 和 ivLBL


Abstract

提出了一种新的全局log双线性回归模型,这种模型结合了“全局矩阵分解(global matrix factorization)”和“局部上下文窗口(local context window methods)”两类模型的优点。

常见的“全局矩阵分解”模型有,LSA;

常见的“局部上下文窗口”模型有,skip-gram。

Introduction

“全局矩阵分解”优势在于充分利用全局信息,但在处理 analogy task 上效果不佳;而“局部上下文窗口”虽然能很好地处理 analogy task,但是会错过语料库中一些信息的重复性(即重复性也会提供一定的信息)。

Introduction部分内容摘自Related Work。

※ 我认为这优缺点总结的非常笼统。

Related Work

介绍了前人的工作,指出他们存在的一些问题,进而希望引出作者的模型。

  1. Matrix Factorization Methods
  2. Shallow Window-based Methods

The GloVe Model

虽然现在有许多模型利用单词共现统计信息,但是对于“如何根据统计信息产生意义”,以及“词向量又是如何表示这些意义的”仍然存在问题,或者说仍然存在优化空间。

※ 我认为这或许是一个探索方向,当然不考虑正确性的前提下,这论文也比较早了,说不定这个方向已经有人做了。

GloVe 全称为 Global Vectors,表示模型直接使用全局语料库的统计信息。

GloVe 中的共现矩阵是 word-word 共现矩阵,记为 ; 表示单词 的上下文窗口内单词 的出现总数(注意窗口会滑动,所以可能存在多个窗口影响 的值); 表示出现在单词 上下文窗口的单词总数; 表示单词 出现在单词 上下文窗口中的可能性。

作者采用概率之比,即比率,来度量单词之间的相关性。对于任意一个单词 ,如果 ,则说明单词 与单词 (语法或语义)相似;如果 ,则说明单词 与单词 (语法或语义)相似;如果接近 ,则说明单词 与单词 、 均不相似。相比于直接使用概率作为从共现矩阵中获取的信息,采用比率学习词向量的可解释性更强。

作者的简单对比。

代表 , 代表 。这两个词的关系可以通过他们与某个词 的共现概率之比得到。例如, 是某个和 相关但是和 无关的词,比如 ,那么 将会很大;而当 和 相关但是和 无关时,比如 这个比值将会很小。还有 和两个词相关() 或者和两个词不相关(),这个比值将接近于 。

    以上就是本篇文章【【精读系列】GloVe: Global Vectors for Word Representation】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/14772.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
10月手机发布汇总:华为Mate 20、小米滑盖引关注滑盖手机「10月手机发布汇总:华为Mate 20、小米滑盖引关注」
  对于手机厂商们来说,新品发布会不和苹果撞车、甚至直接避开9月份都算是明智的主意。所以,在iPhone XS“风暴”减弱后,安卓
1500左右轻薄手感的安卓手机推荐1500左右的手机「1500左右轻薄手感的安卓手机推荐」
在1500左右的预算如果是想要选择轻薄的手机的话,建议可以考虑一下真我10Pro+和小米civi1S这两款手机,这两款手机在轻薄手感上面
过年无忧 | 一键get这些春节话术!
一键Get这些春节话术~过年无忧新年快乐春节将至,年味渐浓在这温馨又热闹的节日氛围里我们既能品尝各式各样的美味佳肴沉浸于味
2025在新加坡生活的我们将迎来“至暗时刻”:房租飙涨、每个月入不敷出…
聚焦新加坡真是开年暴击!2025年刚开始,还没过新年呢,万事通就出了一身冷汗:今年又是一个物价涨涨涨的年份。在网上一搜“新加
太抽象!太抽象!2024年游戏行业简直太抽象!
年末,DataEye研究院今天整点活,轻松一波。——用数据、新闻盘点2024年国内游戏业有多抽象。回首2024年有产品研发8年烧了数亿,
TikTok会如何收场
TikTok的命运再次悬而不决。在美国下架12小时又恢复运营之后,1月20日,美国总统特朗普签署行政命令,要求TikTok「不卖就禁」法
今天上午10:00,成绩发布!
早安,东台!‍今天是2025年1月22日‍星期三(农历腊月廿三)大美东台,活力满满进取创新、奋斗拼搏最近有哪些新动态?和小东一
农村土地托管服务的理论基础
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
头上三尺有神明,每个人头顶都有一颗星,当星光消失人也就消失!
每当夜晚降临后,我们抬头看天空,会看到满天的星星,自古以来,人们从没有停止过对星象的观测和研究。古人观测星象,一则是为了
运营师抖音代运营
运营师抖音代运营:掌握流行短视频潮流的神奇职业短视频平台已经成为人们娱乐、学习和社交的重要方式。在众多的短视频平台中,抖