推广 热搜： page 关键词红书链接搜索获取哪些数据数据分析服务

【精读系列】GloVe： Global Vectors for Word Representation

日期：2025-01-02 作者：pt4a6 caijiyuan 评论：0 移动：https://sicmodule.kub2b.com/mobile/news/14772.html

核心提示：本论文介绍了一种基于计数统计的词向量学习方法 GloVe，作者实验说明效果优于 Word2Vec 模型。阅读完成时间：20221109一些预备

本论文介绍了一种基于计数统计的词向量学习方法 GloVe，作者实验说明效果优于 Word2Vec 模型。
阅读完成时间：20221109

一些预备知识或者是常用知识

GloVe 模型属于 count-based method，所谓 count-based method 一般指利用两个词一起出现的次数统计信息；

Word2Vec 模型属于 prediction-based method，一般指神经网络方法，根据一些词预测新词。

word analogy 为词的类比任务，word similarity 为词的相似性任务，Named Entries Recognition 为命名实体识别，这三个任务用于验证词向量的优劣。

word analogy：该任务考察用词向量来推断不同单词间的语义关系，举个直观的例子，。（The word analogy task consists of questions like, “a is to b as c is to ?”）。任务流程为，对于计算出词向量，找到与该词向量最相似的单词（的词向量）作为唯一匹配，只有与给定匹配结果一致才算选择正确。

word similarity：该任务评估两个词向量之间的语义紧密关系和相关性。任务流程为，计算词向量间的余弦值作为相似性分数，计算人工标注好的两两单词的相似度分数与余弦分数之间的斯皮尔曼相关系数（Spearman’s rank correlation coefficient），以评估词向量的优劣。

long tail：长尾分布，少部分的类别占据了大部分样本数量，大部分类别只占据很少的样本。

power-law：幂律分布，图像体现为长尾，与齐夫（Zipf）定律图像类似。

generalized harmonic number：广义调和级数，，有的认为也为广义调和级数。

Riemann zeta function：黎曼函数，。

Symmetric context：能扩展到目标词左右词的窗口为对称窗口。

Asymmetric context：只扩展到左边的上下文窗口称为非对称窗口。

log-bilinear model：对数双线性模型，简称LBL。

Given the context , the LBL model first predicts the representation for the next word wn by linearly combining the representations of the context words:

is the real-valued vector representing word .

Then the distribution for the next word is computed based on the similarity between the predicted representation and the representations of all words in the vocabulary

网上对于对数线性函数的定义形式和名称由来都没有很好的解释。

个人收获

state-of-the-art：最先进的。多篇论文都用到了这个词。

outperform：超过。

未知模型：（可以作为学习列表）

① Hyperspace Analogue to Language （HAL）

② COALS Rohde

③ PPMZ 2007

④ HPCA

⑤ vLBL 和 ivLBL

Abstract

提出了一种新的全局log双线性回归模型，这种模型结合了“全局矩阵分解（global matrix factorization）”和“局部上下文窗口（local context window methods）”两类模型的优点。

常见的“全局矩阵分解”模型有，LSA；

常见的“局部上下文窗口”模型有，skip-gram。

Introduction

“全局矩阵分解”优势在于充分利用全局信息，但在处理 analogy task 上效果不佳；而“局部上下文窗口”虽然能很好地处理 analogy task，但是会错过语料库中一些信息的重复性（即重复性也会提供一定的信息）。

Introduction部分内容摘自Related Work。

※ 我认为这优缺点总结的非常笼统。

Related Work

介绍了前人的工作，指出他们存在的一些问题，进而希望引出作者的模型。

Matrix Factorization Methods
Shallow Window-based Methods

The GloVe Model

虽然现在有许多模型利用单词共现统计信息，但是对于“如何根据统计信息产生意义”，以及“词向量又是如何表示这些意义的”仍然存在问题，或者说仍然存在优化空间。

※ 我认为这或许是一个探索方向，当然不考虑正确性的前提下，这论文也比较早了，说不定这个方向已经有人做了。

GloVe 全称为 Global Vectors，表示模型直接使用全局语料库的统计信息。

GloVe 中的共现矩阵是 word-word 共现矩阵，记为；表示单词的上下文窗口内单词的出现总数（注意窗口会滑动，所以可能存在多个窗口影响的值）；表示出现在单词上下文窗口的单词总数；表示单词出现在单词上下文窗口中的可能性。

作者采用概率之比，即比率，来度量单词之间的相关性。对于任意一个单词，如果，则说明单词与单词（语法或语义）相似；如果，则说明单词与单词（语法或语义）相似；如果接近，则说明单词与单词、均不相似。相比于直接使用概率作为从共现矩阵中获取的信息，采用比率学习词向量的可解释性更强。

作者的简单对比。

代表，代表。这两个词的关系可以通过他们与某个词的共现概率之比得到。例如，是某个和相关但是和无关的词，比如，那么将会很大；而当和相关但是和无关时，比如这个比值将会很小。还有和两个词相关（）或者和两个词不相关（），这个比值将接近于。

本文地址：https://sicmodule.kub2b.com/news/14772.html 企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

先一步开启“年味”：鲸灵羽绒季&年货节刷新品牌战绩

最新动态

推荐图文

最新资讯

点击排行

• 过年无忧｜一键get这些春节话术！	• 2025在新加坡生活的我们将迎来“至暗时刻”：房
• 太抽象！太抽象！2024年游戏行业简直太抽象！	• TikTok会如何收场
• 今天上午10：00，成绩发布！	• 农村土地托管服务的理论基础
• 头上三尺有神明，每个人头顶都有一颗星，当星光	• 运营师抖音代运营
• 微短剧，2024年“最大赢家”？｜年终盘点	• 同类第一！20%弹性的人工智能 ETF 科创(588760)