推广 热搜: page  关键词  红书  哪些  数据分析  链接  搜索  获取  小红  服务 

实测!最新端侧全模态大模型Megrez-3B-Omni精华

   日期:2024-12-29     作者:xxhms    caijiyuan   评论:0    移动:https://sicmodule.kub2b.com/mobile/news/11971.html
核心提示:Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三

Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力,具体模型参数如下表所示。

Megrez-3B-Omni在并未牺牲模型的文本处理能力的前提下,在三个模态上相较于同等参数模型,均取得较好的效果。

图源:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

注意:下面的文本、图像、语音评测均基于https://huggingface.co/spaces/Infinigence/Megrez-3B-Omni

我在电脑端,音频测试有点麻烦,就简单测了几个,其他语音内容大家就自己测试吧。

其实让我感兴趣的还有一个web-search方案,里面还是有一些细节内容的,并不是一个简单的RAG总结项目。比如:工程中会增加一步摘要过程,去除无效的网页信息,并将内容cache下来,以便提高模型回复效果等。

项目是基于Megrez-3B-Instruct模型,进行的web-search搭建,做了一些适配Search的专项训练,

  • 模型调用Search Tool的时机挺准确的。做过相关内容的同学一定知道,模型在Search工具调用上很容易出现一直调用工具的情况,但实际上一些日常问题是不需要调用搜索引擎的,大模型可以直接回答甚至效果更好。

  • 多轮对话的理解不错。我们也知道多轮对话理解是大模型的强项,但在带检索的过程当然,就需要模型对整个对话有很好的理解能力。

  • 当然给出带ref格式的输出内容,这个部分是模型针对性训练后才用的能力。

看他的工程,里面还是有很多有意思的细节内容,并不是一个简单的RAG总结项目。比如:工程中会增加一步摘要过程,去除无效的网页信息,并将内容cache下来,以便提高模型回复效果等。

项目的整体流程如下图所示,

  • 判断是调用工具回答还是大模型直接回答
  • 若调用工具回答则对用户Query改写,生成相应的搜索关键词
  • 通过查询Query获取相关的网页文本内容
  • 根据Query和各个网页内容生成对应的summary,无关网页或者内容会以“无相关信息”替代
  • 在根据summary和Query终结生成答案。

整个项目的启动也是十分简单,三步走,你就可以得到一个本地部署的kimi啦:

  • 启动检索

  • 启动模型

  • 启动Demo

PS:其他详细内容自己去看Github,比如摘要字数、关注的对话轮等等。

本文地址:https://sicmodule.kub2b.com/news/11971.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号