商务服务
【精读系列】GloVe: Global Vectors for Word Representation
2025-01-02 17:15

本论文介绍了一种基于计数统计的词向量学习方法 GloVe,作者实验说明效果优于 Word2Vec 模型。
阅读完成时间:20221109

一些预备知识或者是常用知识

GloVe 模型属于 count-based method,所谓 count-based method 一般指利用两个词一起出现的次数统计信息;

Word2Vec 模型属于 prediction-based method,一般指神经网络方法,根据一些词预测新词。



word analogy 为词的类比任务,word similarity 为词的相似性任务,Named Entries Recognition 为命名实体识别,这三个任务用于验证词向量的优劣

word analogy:该任务考察用词向量来推断不同单词间的语义关系,举个直观的例子,。(The word analogy task consists of questions like, “a is to b as c is to ?”)。任务流程为,对于 计算出词向量,找到与该词向量最相似的单词(的词向量)作为唯一匹配,只有与给定匹配结果一致才算选择正确。

word similarity:该任务评估两个词向量之间的语义紧密关系和相关性。任务流程为,计算词向量间的余弦值作为相似性分数,计算人工标注好的两两单词的相似度分数与余弦分数之间的斯皮尔曼相关系数(Spearman’s rank correlation coefficient),以评估词向量的优劣。



long tail:长尾分布,少部分的类别占据了大部分样本数量,大部分类别只占据很少的样本。

power-law:幂律分布,图像体现为长尾,与齐夫(Zipf)定律图像类似。

generalized harmonic number:广义调和级数,,有的认为 也为广义调和级数。

Riemann zeta function:黎曼 函数, 。



Symmetric context:能扩展到目标词左右词的窗口为对称窗口。

Asymmetric context:只扩展到左边的上下文窗口称为非对称窗口。



log-bilinear model:对数双线性模型,简称LBL。

Given the context , the LBL model first predicts the representation for the next word wn by linearly combining the representations of the context words:

is the real-valued vector representing word .

Then the distribution for the next word is computed based on the similarity between the predicted representation and the representations of all words in the vocabulary

网上对于对数线性函数的定义形式和名称由来都没有很好的解释。

个人收获

state-of-the-art:最先进的。多篇论文都用到了这个词。

outperform:超过。



未知模型:(可以作为学习列表)

① Hyperspace Analogue to Language (HAL)

② COALS Rohde

③ PPMZ 2007

④ HPCA

⑤ vLBL 和 ivLBL


Abstract

提出了一种新的全局log双线性回归模型,这种模型结合了“全局矩阵分解(global matrix factorization)”和“局部上下文窗口(local context window methods)”两类模型的优点。

常见的“全局矩阵分解”模型有,LSA;

常见的“局部上下文窗口”模型有,skip-gram。

Introduction

“全局矩阵分解”优势在于充分利用全局信息,但在处理 analogy task 上效果不佳;而“局部上下文窗口”虽然能很好地处理 analogy task,但是会错过语料库中一些信息的重复性(即重复性也会提供一定的信息)。

Introduction部分内容摘自Related Work。

※ 我认为这优缺点总结的非常笼统。

Related Work

介绍了前人的工作,指出他们存在的一些问题,进而希望引出作者的模型。

  1. Matrix Factorization Methods
  2. Shallow Window-based Methods

The GloVe Model

虽然现在有许多模型利用单词共现统计信息,但是对于“如何根据统计信息产生意义”,以及“词向量又是如何表示这些意义的”仍然存在问题,或者说仍然存在优化空间。

※ 我认为这或许是一个探索方向,当然不考虑正确性的前提下,这论文也比较早了,说不定这个方向已经有人做了。

GloVe 全称为 Global Vectors,表示模型直接使用全局语料库的统计信息。

GloVe 中的共现矩阵是 word-word 共现矩阵,记为 ; 表示单词 的上下文窗口内单词 的出现总数(注意窗口会滑动,所以可能存在多个窗口影响 的值); 表示出现在单词 上下文窗口的单词总数; 表示单词 出现在单词 上下文窗口中的可能性。

作者采用概率之比,即比率,来度量单词之间的相关性。对于任意一个单词 ,如果 ,则说明单词 与单词 (语法或语义)相似;如果 ,则说明单词 与单词 (语法或语义)相似;如果接近 ,则说明单词 与单词 、 均不相似。相比于直接使用概率作为从共现矩阵中获取的信息,采用比率学习词向量的可解释性更强。

作者的简单对比。

代表 , 代表 。这两个词的关系可以通过他们与某个词 的共现概率之比得到。例如, 是某个和 相关但是和 无关的词,比如 ,那么 将会很大;而当 和 相关但是和 无关时,比如 这个比值将会很小。还有 和两个词相关() 或者和两个词不相关(),这个比值将接近于 。

    以上就是本篇文章【【精读系列】GloVe: Global Vectors for Word Representation】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/14772.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
淘宝开店手机端怎么弄,淘宝如何手机开店流程手机淘宝「淘宝开店手机端怎么弄,淘宝如何手机开店流程」
近年来,随着互联网的发展,越来越多的人选择在网上开店创业。而淘宝作为中国最大的电商平台,吸引了无数创业者的目光。对于很多
手机贴膜硬核科普,一分钟搞懂8种手机膜的区别手机钢化膜「手机贴膜硬核科普,一分钟搞懂8种手机膜的区别」
创作立场声明:文中列举商品仅为示范作用,与品牌无关。说起手机贴膜,想必大家并不陌生,很多人拿到手机后的第一件事,就是贴膜
你以为它死了,其实它复活了,诺基亚手机回归带来十个疑问高颜值手机「你以为它死了,其实它复活了,诺基亚手机回归带来十个疑问」
  2008年1月16日,德国波鸿,在一次员工示威期间,一位诺基亚公司的女员工落泪。你以为它死了,其实它复活了,是的,说的就是
华为折叠手机2023新款价格 华为最新款手机折叠华为新款手机「华为折叠手机2023新款价格 华为最新款手机折叠」
折叠手机是智能手机的一种造型,柔性AMOLED屏幕是折叠手机的突破关键。寰宇舷窗,探索未来独创寰宇舷窗设计,以探索之姿洞见未⁠
139手机邮箱注册(139手机号邮箱注册)
  关于《139手机邮箱注册》的文章  在当今信息化社会,电子邮件已成为人们日常生活和工作中不可或缺的一部分。而手机邮箱因
信息门户手机信息「信息门户」
我校信息门户于2019年1月上线,与南京大学APP互为移动端服务补充,为师生提供在线服务、消息提醒、推文宣传等服务功能。 微信搜
手机能一直开着录音吗 手机一直开着录音行吗【详解】手机录音「手机能一直开着录音吗 手机一直开着录音行吗【详解】」
  能一直开着录音,但是要保证电量和储存空间的充足。一旦录音的储存空间被占满,录音就会停止,保证电量充足,可以边充边录音
张蔷属于昨天,更属于“明天”(音乐节)v i v o 手机「张蔷属于昨天,更属于“明天”(音乐节)」
张蔷,中国内地流行音乐代表人物,传奇天才女歌手,80年代中国流行文化偶像符号,21世纪迪斯科回潮的新女皇。 从小深受从事音乐
2k14手机(2k14手机版中文版下载)
  《2K14手机》:超越视觉的极致体验  在当今科技飞速发展的时代,手机已经成为了我们生活中不可或缺的一部分。而《2K14手机
适合情侣玩的手机游戏前五名 有适合两个人玩的游戏吗情侣手机「适合情侣玩的手机游戏前五名 有适合两个人玩的游戏吗」
游戏还是两个人一起玩有意思,特别是情侣之间,不但能娱乐,还能增进俩人之间的亲密感情。还有异地恋的情侣们,每天只能依靠煲电