推广 热搜: page  关键词  数据分析  服务  数据分析系统  搜索  获取  哪些  链接  搜索引擎 

七月在线论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama(下)

   日期:2025-01-03     作者:2kzvw    caijiyuan   评论:0    移动:https://sicmodule.kub2b.com/mobile/news/15081.html
核心提示:文末《大模型项目开发线下营-北京站第2期》秒杀!倒计时!!!接上文PART/4模型的训练/微调:从Mistral、Mistral-YaRN到LongLora

文末大模型项目开发线下营-北京站第2期》秒杀!倒计时!!!

接上文

PART/4

模型的训练/微调:从Mistral、Mistral-YaRN到LongLora LLaMA13B

23年12月中旬,本项目总算要走到模型训练阶段了,在此前的工作:数据的处理和数据的质量提高上,下足了功夫,用了各种策略 也用了最新的GPT3.5 16K帮归纳review信息,整个全程是典型的大模型项目开发流程。

而论文审稿GPT第二版在做模型选型的时候,我司考虑了三个候选模型:Mistral、Mistral-YaRN、Llama-LongLora,以下逐一介绍这三个模型,以及对应的训练细节、最终效果。

4.1 Mistral 7B:通过分组查询注意力 + 滑动窗口注意力超越13B模型

今年5月,DeepMind和meta的三位前员工在巴黎共同创立了Mistral AI(其CEO Arthur Mensch此前在DeepMind巴黎工作,CTO Timothée Lacroix和首席科学家Guillaume Lample则在meta共同参与过LLaMA一代的研发,很像当年OpenAI的部分员工出走成立Anthropic啊),今年10月,他们发布了第一个基座大模型,即Mistral 7B

1. Mistral 7B在所有评估基准中均胜过了目前最好的13B参数模型(Llama 2),并在推理、数学和代码生成方面超越了发布的34B参数模型(Llama 34B)Mistral 7B outperforms the previous best 13B model (Llama 2, [26]) across all testedbenchmarks, and surpasses the best 34B model (LLaMa 34B, [25]) in mathematics and codegeneration.

3. 同时结合滑动窗口注意力(sliding window attention,简称SWA)以有效处理任意长度的序列,SWA is designed to handle longer sequences more effectively at a reduced computational cost

包括你再看上上张图所示的「模型参数图」,可知context_len 8192是说它训练的时候,传进来的数据最大只能到8192个tokens,也就是训练时的上下文长度上限,
windows_size 4096是sliding windows attention的滑窗大小,1次attention计算的上下文范围只4096个tokens
言外之意是,每个token只最多计算4096的范围
第5000个token只计算[905: 5000]这个范围的attention
第5001个token只计算[906: 5001]这个范围的attention
以此类推..

此外,作者提供了一个针对遵循指令进行了微调的模型,名为Mistral 7B-Instruct,它在人工和自动化基准测试中均超过了LLaMA 2 13B-chat模型

4.1.1 滑动窗口注意力:扩展上下文长度

vanilla attention的操作次数在序列长度上是二次型的,记忆量随着token数量线性增加。在推理时,由于缓存可用性的降低,这导致了更高的延迟和更小的吞吐量(The number of operations in vanilla attention is quadratic in the sequence length, and the memory increases linearly with the number of tokens. At inference time, this incurs higherlatency and smaller throughput due to reduced cache availability)

  1. 每个token最多可以关注来自上一层的W个token(上图中,W = 3)。请注意,滑动窗口之外的token仍然影响下一个单词预测each token can attend to at most W tokens from the previous layer (here, W = 3). Note that tokensoutside the sliding window still influence next word prediction.

    举个例子,在我们面对这个序列时:The cat sat on the
    如果是标准注意力,在计算最后一个token “the”时,得计算the本身所对应的query与整个上文每个token对应的key的内积,当序列长度一长时,该计算量还是比较大的
    但如果是滑动窗口注意力,则在计算最后一个token “the”时,只需计算the本身所对应的query与上文中3个token对应的key的内积(这里说的上文中的3个token 包括the自己在内)

  2. 在每个注意力层,信息可以向前移动W个token。因此,在k层注意力之后,信息最多可以向前移动k个×W个tokenAt each attention layer, information can moveforward by W tokens. Hence, after k attention layers, information can move forward by up to k ×W tokens.

4.1.2 滚动缓冲区缓存(Rolling Buffer Cache)

固定的注意力长度意味着我们可以使用滚动缓存来限制我们的缓存大小(A fixed attention span means that we can limit our cache size using a rollingbuffer cache)

  1. 缓存的大小是固定的W,时间步长i的键和值存储在缓存的位置i mod W中。因此,当位置i大于W时,缓存中过去的值就会被覆盖,缓存的大小就会停止增加The cache has a fixed size of W, and the keys and values for the timestep i are storedin position i mod W of the cache. As a result, when the position i is larger than W, past valuesin the cache are overwritten, and the size of the cache stops increasing 以“The cat sat on the mat”为例..当 i = 0 时,指The,0 mod 3=0
    当 i = 1 时,指cat,1 mod 3=1
    当 i = 2 时,指sat,2 mod 3=2 当 i = 3 时,指on,3 mod 3=0 当 i = 4 时,指the,4 mod 3=1 当 i = 5 时,指mat,5 mod 3 = 2

  2. 在32k token的序列长度上,这减少了8倍的缓存内存使用,而不影响模型质量On a sequence length of 32k tokens, this reduces the cache memory usageby 8x, without impacting the model quality.

如果把缓冲区比作一座仓库,每存进一个新东西,都会占据相应的位置,而仓库的总容量是固定的,当仓库被装满时,就会把最早放入的东西移除,让新的物品继续进仓,相当于入仓时间更接近当前时间的物品则会留在仓库中,如此,即能在节约资源的同时保留一定长度的序列

4.1.3 预填充与分块:减少重复运算

在生成序列时,我们需要一个一个地预测token,因为每个token都以前面的token为条件。然而,prompt是提前知道的,我们可以用prompt预填充(k, v)缓存,即

  1. 如果prompt非常大,我们可以把它分成更小的块,用每个块预填充缓存。为此,我们可以选择窗口大小作为我们的分块大小。因此,对于每个块,我们需要计算缓存和块上的注意力

  2. 在预填充缓存时,长序列被分块,以限制内存使用 我们把一个序列分成三个块来处理,“The cat sat on”,“the mat and saw”,“the dog go to”。上图中显示了第三块(“the dog go to”)发生的情况:它使用因果掩码(最右块)来关注自己,使用滑动窗口(中心块)来关注缓存,并且不关注过去的token,因为它们在滑动窗口之外(左块)

4.2 Mistral 7B结合YaRN

YaRN的论文原文:https://arxiv.org/abs/2309.00071

// 待更

4.3 LongLora LLaMA13B

// 待更

PART/5

模型的评估:如何评估审稿GPT的效果

5.1 斯坦福研究者如何评估GPT4审稿意见的效果

  • 针对LLM提出的Review与人类的Review,均分别使用一定的prompt交由GPT-4进行摘要处理 即对LLM下达任务,要求其关注Review中潜在的拒绝原因,并以特定的JSON格式来提供Review所指出的关键问题所在,研究团队解释侧重关键问题的目的在于“Review中的批评直接有助于指导作者改进论文”

  • 将需要评估的LLM Review与人类Review由上一步得到的内容共同输入至GPT-4中,利用特定的prompt来指示GPT-4输出新的JSON内容,让GPT-4指出两个传入的内容中的匹配项,并且对匹配程度进行评估(5-10分) 作者研究发现5分、6分的相似项置信程度不佳,因此设定7分以上视为“匹配”,再基于 计算重叠程度,其中 为LLM提出的批评项数, 为LLM与人类提出的匹配批评项数

5.2 借鉴斯坦福的工作,我司如何评价审稿GPT的效果

上一节斯坦福研究者对模型review效果评估的工作看似很完美,不过其中有个小问题,即

  1. 尽管LLM可以根据指令遵循来基于prompt的要求返回JSON格式的内容,但并非每次都能生成得到利于解析的JSON格式内容

  1. 但好在gpt-4-1106-preview和gpt-3.5-turbo-1106版本中提供了JSON mode,在接口中传入response_format={"type": "json_object"}启用该模式、并在prompt中下达“以JSON格式返回”的指示后,将会返回完全符合JSON格式的内容

// 待更

至此,本文中已透露了很多我司论文审稿GPT项目的各种工程细节,这些细节网上很少有,毕竟商用项目,当然 更多在「大模型项目开发营」见

参考文献与推荐阅读

  1. GPT4当审稿人那篇论文的全文翻译:【斯坦福大学最新研究】使用大语言模型生成审稿意见


  1. 几篇mistral-7B的中文解读从开源LLM中学模型架构优化-Mistral 7B开源社区新宠Mistral,最好的7B模型

  2. Mistral 7B-来自号称“欧洲OpenAI”Mistral AI团队发布的最强7B模型

创作、修改、完善记录

  1. 11.2日,开写本文

  1. 11.3日,侧重写第二部分、GPT4审稿的思路

  1. 11.4日,侧重写第三部分中的Mistral 7B

  1. 11.5日,继续完善Mistral 7B的部分

  1. 11.11日,更新此节:“2.2.2 如何让梳理出来的review结果更全面:多聚一” 完善1.1.1节meta nougat 顺带感慨下,为项目落地而进行的技术研究,这种感觉特别爽,^_^

  1. 11.15,增加2.2节:对review数据的二次处理

  1. 11.18,优化2.2节中的部分描述

  1. 11.22,补充了第二部分关于论文审稿GPT第一版中数据处理部分的细节,比如对paper数据处理只是做了去除reference 补充“3.2.3节 通过最终的prompt来处理review数据:ChatGPT VS 开源模型”的相关内容

  1. 11.23,新增此节:1.2 对2.6万篇paper的解析

  1. 11.25,考虑到数据解析、数据处理、模型训练之后,还得做模型的评估 故新增一部分的内容,即第五部分 模型的评估:如何评估审稿GPT的效果

  1. 12.8,因为要在武汉给一公司做内训,且也将在「大模型项目开发线上营」里讲论文审稿GPT,所以随着该项目的不断推进,故 补充在通过OpenAI的API对review数据做摘要处理时,如何绕开API做的各种访问限制 新增一节:“3.3 相关工作之AcademicGPT:增量训练LLaMA2-70B,包含论文审稿功能”

  1. 12.9,重点优化此节的内容:“3.3.2 论文评审:借鉴ReviewAdvisor抽取出review的7个要点(类似我司借鉴斯坦福工作把review归纳出4个要点)”

  2. 12.17,重点优化关于「相关工作AcademicGPT」的描述,特别是其review抽取式归纳的策略

  3. 12.18,补充了Mistral 7B的模型参数图,并补充了和GQA、window_size等参数相关的解释说明

好课推荐

「大模型项目开发线下营-北京站第2期」已于23年12月27日开班,先在线直播(直播后有回访开营反复看),24年1月13-14日在北京线下实战。

前15人报名,除了VIP年卡外,还多送任意两个大模型小课,如: 垂直大模型实战 、 LLM与langchain/知识图谱/数据库的实战 ,如已有这两课,可以选别的

↓↓↓扫码抢购↓↓↓

本文地址:https://sicmodule.kub2b.com/news/15081.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号