Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力,具体模型参数如下表所示。
Megrez-3B-Omni在并未牺牲模型的文本处理能力的前提下,在三个模态上相较于同等参数模型,均取得较好的效果。
图源:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/
注意:下面的文本、图像、语音评测均基于https://huggingface.co/spaces/Infinigence/Megrez-3B-Omni
我在电脑端,音频测试有点麻烦,就简单测了几个,其他语音内容大家就自己测试吧。
其实让我感兴趣的还有一个web-search方案,里面还是有一些细节内容的,并不是一个简单的RAG总结项目。比如:工程中会增加一步摘要过程,去除无效的网页信息,并将内容cache下来,以便提高模型回复效果等。
项目是基于Megrez-3B-Instruct模型,进行的web-search搭建,做了一些适配Search的专项训练,
- 模型调用Search Tool的时机挺准确的。做过相关内容的同学一定知道,模型在Search工具调用上很容易出现一直调用工具的情况,但实际上一些日常问题是不需要调用搜索引擎的,大模型可以直接回答甚至效果更好。
- 多轮对话的理解不错。我们也知道多轮对话理解是大模型的强项,但在带检索的过程当然,就需要模型对整个对话有很好的理解能力。
- 当然给出带ref格式的输出内容,这个部分是模型针对性训练后才用的能力。
看他的工程,里面还是有很多有意思的细节内容,并不是一个简单的RAG总结项目。比如:工程中会增加一步摘要过程,去除无效的网页信息,并将内容cache下来,以便提高模型回复效果等。
项目的整体流程如下图所示,
- 判断是调用工具回答还是大模型直接回答
- 若调用工具回答则对用户Query改写,生成相应的搜索关键词
- 通过查询Query获取相关的网页文本内容
- 根据Query和各个网页内容生成对应的summary,无关网页或者内容会以“无相关信息”替代
- 在根据summary和Query终结生成答案。
整个项目的启动也是十分简单,三步走,你就可以得到一个本地部署的kimi啦:
- 启动检索
- 启动模型
- 启动Demo
PS:其他详细内容自己去看Github,比如摘要字数、关注的对话轮等等。