实测！最新端侧全模态大模型Megrez-3B-Omni精华

核心提示：Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型，基于无问大语言模型Megrez-3B-Instruct扩展，同时具备图片、文本、音频三

Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型，基于无问大语言模型Megrez-3B-Instruct扩展，同时具备图片、文本、音频三种模态数据的理解分析能力，具体模型参数如下表所示。

Megrez-3B-Omni在并未牺牲模型的文本处理能力的前提下，在三个模态上相较于同等参数模型，均取得较好的效果。

图源：https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

注意：下面的文本、图像、语音评测均基于https://huggingface.co/spaces/Infinigence/Megrez-3B-Omni

我在电脑端，音频测试有点麻烦，就简单测了几个，其他语音内容大家就自己测试吧。

其实让我感兴趣的还有一个web-search方案，里面还是有一些细节内容的，并不是一个简单的RAG总结项目。比如：工程中会增加一步摘要过程，去除无效的网页信息，并将内容cache下来，以便提高模型回复效果等。

项目是基于Megrez-3B-Instruct模型，进行的web-search搭建，做了一些适配Search的专项训练，

模型调用Search Tool的时机挺准确的。做过相关内容的同学一定知道，模型在Search工具调用上很容易出现一直调用工具的情况，但实际上一些日常问题是不需要调用搜索引擎的，大模型可以直接回答甚至效果更好。

看他的工程，里面还是有很多有意思的细节内容，并不是一个简单的RAG总结项目。比如：工程中会增加一步摘要过程，去除无效的网页信息，并将内容cache下来，以便提高模型回复效果等。

项目的整体流程如下图所示，

整个项目的启动也是十分简单，三步走，你就可以得到一个本地部署的kimi啦：

PS：其他详细内容自己去看Github，比如摘要字数、关注的对话轮等等。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新资讯

点击排行

• 运营师抖音代运营	• 微短剧，2024年“最大赢家”？｜年终盘点
• 同类第一！20%弹性的人工智能 ETF 科创(588760)	• 如何使用关键词排名提升工具
• 2025快手广告跳转微信如何实现？配置详解	• Tiktok专题
• 什么兼职最赚钱最快速？盘点适合负债者的10个副	• Google回击设计_今日google搜索Google设计教程
• 关键词排名上不去怎么办(关键词排名靠前原因)	• A股市场昨有所回落小红书概念股继续走强