商务服务
七月在线论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama(下)
2025-01-03 06:19

文末大模型项目开发线下营-北京站第2期》秒杀!倒计时!!!

接上文

PART/4

模型的训练/微调:从Mistral、Mistral-YaRN到LongLora LLaMA13B

23年12月中旬,本项目总算要走到模型训练阶段了,在此前的工作:数据的处理和数据的质量提高上,下足了功夫,用了各种策略 也用了最新的GPT3.5 16K帮归纳review信息,整个全程是典型的大模型项目开发流程。

而论文审稿GPT第二版在做模型选型的时候,我司考虑了三个候选模型:Mistral、Mistral-YaRN、Llama-LongLora,以下逐一介绍这三个模型,以及对应的训练细节、最终效果。

4.1 Mistral 7B:通过分组查询注意力 + 滑动窗口注意力超越13B模型

今年5月,DeepMind和meta的三位前员工在巴黎共同创立了Mistral AI(其CEO Arthur Mensch此前在DeepMind巴黎工作,CTO Timothée Lacroix和首席科学家Guillaume Lample则在meta共同参与过LLaMA一代的研发,很像当年OpenAI的部分员工出走成立Anthropic啊),今年10月,他们发布了第一个基座大模型,即Mistral 7B

1. Mistral 7B在所有评估基准中均胜过了目前最好的13B参数模型(Llama 2),并在推理、数学和代码生成方面超越了发布的34B参数模型(Llama 34B)Mistral 7B outperforms the previous best 13B model (Llama 2, [26]) across all testedbenchmarks, and surpasses the best 34B model (LLaMa 34B, [25]) in mathematics and codegeneration.

3. 同时结合滑动窗口注意力(sliding window attention,简称SWA)以有效处理任意长度的序列,SWA is designed to handle longer sequences more effectively at a reduced computational cost

包括你再看上上张图所示的「模型参数图」,可知context_len 8192是说它训练的时候,传进来的数据最大只能到8192个tokens,也就是训练时的上下文长度上限,
windows_size 4096是sliding windows attention的滑窗大小,1次attention计算的上下文范围只4096个tokens
言外之意是,每个token只最多计算4096的范围
第5000个token只计算[905: 5000]这个范围的attention
第5001个token只计算[906: 5001]这个范围的attention
以此类推..

此外,作者提供了一个针对遵循指令进行了微调的模型,名为Mistral 7B-Instruct,它在人工和自动化基准测试中均超过了LLaMA 2 13B-chat模型

4.1.1 滑动窗口注意力:扩展上下文长度

vanilla attention的操作次数在序列长度上是二次型的,记忆量随着token数量线性增加。在推理时,由于缓存可用性的降低,这导致了更高的延迟和更小的吞吐量(The number of operations in vanilla attention is quadratic in the sequence length, and the memory increases linearly with the number of tokens. At inference time, this incurs higherlatency and smaller throughput due to reduced cache availability)

  1. 每个token最多可以关注来自上一层的W个token(上图中,W = 3)。请注意,滑动窗口之外的token仍然影响下一个单词预测each token can attend to at most W tokens from the previous layer (here, W = 3). Note that tokensoutside the sliding window still influence next word prediction.

    举个例子,在我们面对这个序列时:The cat sat on the
    如果是标准注意力,在计算最后一个token “the”时,得计算the本身所对应的query与整个上文每个token对应的key的内积,当序列长度一长时,该计算量还是比较大的
    但如果是滑动窗口注意力,则在计算最后一个token “the”时,只需计算the本身所对应的query与上文中3个token对应的key的内积(这里说的上文中的3个token 包括the自己在内)

  2. 在每个注意力层,信息可以向前移动W个token。因此,在k层注意力之后,信息最多可以向前移动k个×W个tokenAt each attention layer, information can moveforward by W tokens. Hence, after k attention layers, information can move forward by up to k ×W tokens.

4.1.2 滚动缓冲区缓存(Rolling Buffer Cache)

固定的注意力长度意味着我们可以使用滚动缓存来限制我们的缓存大小(A fixed attention span means that we can limit our cache size using a rollingbuffer cache)

  1. 缓存的大小是固定的W,时间步长i的键和值存储在缓存的位置i mod W中。因此,当位置i大于W时,缓存中过去的值就会被覆盖,缓存的大小就会停止增加The cache has a fixed size of W, and the keys and values for the timestep i are storedin position i mod W of the cache. As a result, when the position i is larger than W, past valuesin the cache are overwritten, and the size of the cache stops increasing 以“The cat sat on the mat”为例..当 i = 0 时,指The,0 mod 3=0
    当 i = 1 时,指cat,1 mod 3=1
    当 i = 2 时,指sat,2 mod 3=2 当 i = 3 时,指on,3 mod 3=0 当 i = 4 时,指the,4 mod 3=1 当 i = 5 时,指mat,5 mod 3 = 2

  2. 在32k token的序列长度上,这减少了8倍的缓存内存使用,而不影响模型质量On a sequence length of 32k tokens, this reduces the cache memory usageby 8x, without impacting the model quality.

如果把缓冲区比作一座仓库,每存进一个新东西,都会占据相应的位置,而仓库的总容量是固定的,当仓库被装满时,就会把最早放入的东西移除,让新的物品继续进仓,相当于入仓时间更接近当前时间的物品则会留在仓库中,如此,即能在节约资源的同时保留一定长度的序列

4.1.3 预填充与分块:减少重复运算

在生成序列时,我们需要一个一个地预测token,因为每个token都以前面的token为条件。然而,prompt是提前知道的,我们可以用prompt预填充(k, v)缓存,即

  1. 如果prompt非常大,我们可以把它分成更小的块,用每个块预填充缓存。为此,我们可以选择窗口大小作为我们的分块大小。因此,对于每个块,我们需要计算缓存和块上的注意力

  2. 在预填充缓存时,长序列被分块,以限制内存使用 我们把一个序列分成三个块来处理,“The cat sat on”,“the mat and saw”,“the dog go to”。上图中显示了第三块(“the dog go to”)发生的情况:它使用因果掩码(最右块)来关注自己,使用滑动窗口(中心块)来关注缓存,并且不关注过去的token,因为它们在滑动窗口之外(左块)

4.2 Mistral 7B结合YaRN

YaRN的论文原文:https://arxiv.org/abs/2309.00071

// 待更

4.3 LongLora LLaMA13B

// 待更

PART/5

模型的评估:如何评估审稿GPT的效果

5.1 斯坦福研究者如何评估GPT4审稿意见的效果

  • 针对LLM提出的Review与人类的Review,均分别使用一定的prompt交由GPT-4进行摘要处理 即对LLM下达任务,要求其关注Review中潜在的拒绝原因,并以特定的JSON格式来提供Review所指出的关键问题所在,研究团队解释侧重关键问题的目的在于“Review中的批评直接有助于指导作者改进论文”

  • 将需要评估的LLM Review与人类Review由上一步得到的内容共同输入至GPT-4中,利用特定的prompt来指示GPT-4输出新的JSON内容,让GPT-4指出两个传入的内容中的匹配项,并且对匹配程度进行评估(5-10分) 作者研究发现5分、6分的相似项置信程度不佳,因此设定7分以上视为“匹配”,再基于 计算重叠程度,其中 为LLM提出的批评项数, 为LLM与人类提出的匹配批评项数

5.2 借鉴斯坦福的工作,我司如何评价审稿GPT的效果

上一节斯坦福研究者对模型review效果评估的工作看似很完美,不过其中有个小问题,即

  1. 尽管LLM可以根据指令遵循来基于prompt的要求返回JSON格式的内容,但并非每次都能生成得到利于解析的JSON格式内容

  1. 但好在gpt-4-1106-preview和gpt-3.5-turbo-1106版本中提供了JSON mode,在接口中传入response_format={"type": "json_object"}启用该模式、并在prompt中下达“以JSON格式返回”的指示后,将会返回完全符合JSON格式的内容

// 待更

至此,本文中已透露了很多我司论文审稿GPT项目的各种工程细节,这些细节网上很少有,毕竟商用项目,当然 更多在「大模型项目开发营」见

参考文献与推荐阅读

  1. GPT4当审稿人那篇论文的全文翻译:【斯坦福大学最新研究】使用大语言模型生成审稿意见


  1. 几篇mistral-7B的中文解读从开源LLM中学模型架构优化-Mistral 7B开源社区新宠Mistral,最好的7B模型

  2. Mistral 7B-来自号称“欧洲OpenAI”Mistral AI团队发布的最强7B模型

创作、修改、完善记录

  1. 11.2日,开写本文

  1. 11.3日,侧重写第二部分、GPT4审稿的思路

  1. 11.4日,侧重写第三部分中的Mistral 7B

  1. 11.5日,继续完善Mistral 7B的部分

  1. 11.11日,更新此节:“2.2.2 如何让梳理出来的review结果更全面:多聚一” 完善1.1.1节meta nougat 顺带感慨下,为项目落地而进行的技术研究,这种感觉特别爽,^_^

  1. 11.15,增加2.2节:对review数据的二次处理

  1. 11.18,优化2.2节中的部分描述

  1. 11.22,补充了第二部分关于论文审稿GPT第一版中数据处理部分的细节,比如对paper数据处理只是做了去除reference 补充“3.2.3节 通过最终的prompt来处理review数据:ChatGPT VS 开源模型”的相关内容

  1. 11.23,新增此节:1.2 对2.6万篇paper的解析

  1. 11.25,考虑到数据解析、数据处理、模型训练之后,还得做模型的评估 故新增一部分的内容,即第五部分 模型的评估:如何评估审稿GPT的效果

  1. 12.8,因为要在武汉给一公司做内训,且也将在「大模型项目开发线上营」里讲论文审稿GPT,所以随着该项目的不断推进,故 补充在通过OpenAI的API对review数据做摘要处理时,如何绕开API做的各种访问限制 新增一节:“3.3 相关工作之AcademicGPT:增量训练LLaMA2-70B,包含论文审稿功能”

  1. 12.9,重点优化此节的内容:“3.3.2 论文评审:借鉴ReviewAdvisor抽取出review的7个要点(类似我司借鉴斯坦福工作把review归纳出4个要点)”

  2. 12.17,重点优化关于「相关工作AcademicGPT」的描述,特别是其review抽取式归纳的策略

  3. 12.18,补充了Mistral 7B的模型参数图,并补充了和GQA、window_size等参数相关的解释说明

好课推荐

「大模型项目开发线下营-北京站第2期」已于23年12月27日开班,先在线直播(直播后有回访开营反复看),24年1月13-14日在北京线下实战。

前15人报名,除了VIP年卡外,还多送任意两个大模型小课,如: 垂直大模型实战 、 LLM与langchain/知识图谱/数据库的实战 ,如已有这两课,可以选别的

↓↓↓扫码抢购↓↓↓

    以上就是本篇文章【七月在线论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama(下)】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/15081.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
手机贴膜硬核科普,一分钟搞懂8种手机膜的区别手机钢化膜「手机贴膜硬核科普,一分钟搞懂8种手机膜的区别」
创作立场声明:文中列举商品仅为示范作用,与品牌无关。说起手机贴膜,想必大家并不陌生,很多人拿到手机后的第一件事,就是贴膜
你以为它死了,其实它复活了,诺基亚手机回归带来十个疑问高颜值手机「你以为它死了,其实它复活了,诺基亚手机回归带来十个疑问」
  2008年1月16日,德国波鸿,在一次员工示威期间,一位诺基亚公司的女员工落泪。你以为它死了,其实它复活了,是的,说的就是
华为折叠手机2023新款价格 华为最新款手机折叠华为新款手机「华为折叠手机2023新款价格 华为最新款手机折叠」
折叠手机是智能手机的一种造型,柔性AMOLED屏幕是折叠手机的突破关键。寰宇舷窗,探索未来独创寰宇舷窗设计,以探索之姿洞见未⁠
139手机邮箱注册(139手机号邮箱注册)
  关于《139手机邮箱注册》的文章  在当今信息化社会,电子邮件已成为人们日常生活和工作中不可或缺的一部分。而手机邮箱因
信息门户手机信息「信息门户」
我校信息门户于2019年1月上线,与南京大学APP互为移动端服务补充,为师生提供在线服务、消息提醒、推文宣传等服务功能。 微信搜
手机能一直开着录音吗 手机一直开着录音行吗【详解】手机录音「手机能一直开着录音吗 手机一直开着录音行吗【详解】」
  能一直开着录音,但是要保证电量和储存空间的充足。一旦录音的储存空间被占满,录音就会停止,保证电量充足,可以边充边录音
张蔷属于昨天,更属于“明天”(音乐节)v i v o 手机「张蔷属于昨天,更属于“明天”(音乐节)」
张蔷,中国内地流行音乐代表人物,传奇天才女歌手,80年代中国流行文化偶像符号,21世纪迪斯科回潮的新女皇。 从小深受从事音乐
2k14手机(2k14手机版中文版下载)
  《2K14手机》:超越视觉的极致体验  在当今科技飞速发展的时代,手机已经成为了我们生活中不可或缺的一部分。而《2K14手机
适合情侣玩的手机游戏前五名 有适合两个人玩的游戏吗情侣手机「适合情侣玩的手机游戏前五名 有适合两个人玩的游戏吗」
游戏还是两个人一起玩有意思,特别是情侣之间,不但能娱乐,还能增进俩人之间的亲密感情。还有异地恋的情侣们,每天只能依靠煲电
创新之城,非凡园区!星海红领巾访园区展示中心v i v o 手机「创新之城,非凡园区!星海红领巾访园区展示中心」
创新之城 非凡园区红领巾寻访苏州工业园区展示中心 这里的街道宽敞整洁,很少见到密如蛛网的电线和凌乱的街边小店; 这里的马路