搭建一个企业内部 AI 问答机器人、知识库的场景, 我们可以选择大厂的云服务, 这相对于大多数用户来说, 是最省事的方案。但很多企业可能会有一些私有化的数据, 或者受限于企业内部的安全性要求, 只能走模型私有化部署的方式。
很多人想到模型私有化部署, 会以为要数据中心的多台服务器来做, 其实不然。
办公室里搭建 AI 工作站, 已经可以完美地支持企业内部知识库和一些 POC 场景的需求, 比如进行量化的 70B 模型的训练和推理工作。所以在办公室环境下, 同样可以搭建一个 AI 问答机器人。
赞奇科技基于 NVIDIA ChatRTX 搭建的企业问答机器人
但搭建一个 AI 问答机器人又是一个涉及硬件选择、安装、开发环境部署的综合过程。
最近赞奇的工程师团队测试了几款主流大模型, 就采用 AI 工作站搭建一个本地问答机器人提供了一些建议参考, 这里抓一些重点给大家:
第一步确定需求与目标
这一步至关重要, 需要确定以下关键点:
性能要求: 了解所做任务的复杂度, 如知识库所需要采样的数据库的大小, 未来的用户并发量等, 以此来预估所需的计算资源和存储空间等, 通常我们可以用现有机器跑任务测试的方式来评估。
预算范围: 明确愿意投入的资金等成本范围。对预算没有概念的小伙伴可以通过询问, 或者参考公开市场价格等方式来加速了解。
第二步选择合适的硬件
根据需求我们来制定硬件配置,AI 工作站比较关键的配置有 GPU、CPU、内存、机箱等。
GPU
GPU 是 AI 工作站中非常核心的算力, 也是 AI 工作站中需要首先考虑的配件。目前适用于专业 AI 工作站的显卡主要有 NVIDIA RTX™5880 Ada (48GB) 及 NVIDIA RTX™ 5000 Ada (32GB) 等, 这两款显卡属于 NVIDIA 专业级显卡, 主动散热、功耗很低而且非常稳定, 静音也适合办公室使用。
我们可以看看两款显卡的参数:
我们需要根据算力需求来配置工作站中的显卡, 包括显卡型号和数量。AI 工作站可至多支持 4 张高性能专业显卡, 同时一个工作站中需要配置同一型号的显卡, 并且一般采用单卡、双卡和四卡的配置。
这就需要我们同时要了解不同型号显卡的性能, 才能来匹配任务需求。这是个极大的挑战。很多人对显卡性能并不熟悉, 而且在不同的任务情况下, 显卡的表现也会有所不同。我们可以参考与我们类似的任务在显卡上的测评数据来评估。有条件的话, 在购买时建议最好提前测试下。
显卡实测数据
很多企业采用 AI 工作站来做知识库、智能问答等应用, 主要任务是本地的模型微调和推理, 模型大小普遍选择在 7B / 8B,13B,32B 和 70B。
NVIDIA 解决方案合作伙伴赞奇科技, 分别对 AI 工作站中搭载 NVIDIA RTX 5880 Ada、NVIDIA RTX 5000 Ada 的单卡、双卡、四卡配置进行了模型训练和推理的测试, 测试数据供大家在选型时参考。
AI 工作站搭载 NVIDIA RTX 5000 Ada 的实测
NVIDIA RTX 5000 Ada
(图片源于 NVIDIA)
测试环境:
CPU: Intel(R) Xeon(R) w5-3433
内存:64G DDR5 * 8
GPU: NVIDIA RTX 5000 Ada * 4
操作系统:ubuntu22.04
Driver Version: 550.107.02
CUDA: 12.1
推理框架:vllm
测试数据 (以下数据均为多次测试数据的平均值):
AI 工作站搭载 NVIDIA RTX 5880 Ada 的实测
NVIDIA RTX 5880 Ada
(图片源于 NVIDIA)
测试环境:
CPU: Intel(R) Xeon(R) w5-3433
内存:64G DDR5 * 8
GPU: NVIDIA RTX 5880 Ada * 4
操作系统:ubuntu 22.04
Driver Version: 550.107.02
CUDA: 12.1
推理框架:vllm
测试数据 (以下数据均为多次测试数据的平均值):
噪音测试
无论是搭载 4 张 NVIDIA RTX 5880 Ada, 还是 4 张 NVIDIA RTX 5000 Ada 的品牌 AI 工作站, 在压测情况下机器出风口测得的噪音水平控制在 50-60 分贝, 基本上接近环境音的水平, 办公室噪音? 那是没有的!
以上测试数据均来源于赞奇科技, 如需实测可点击“阅读原文”或扫描下方二维码申请:
其他配置
CPU 要注意考虑和 GPU 的匹配问题。实际使用中, 具有较高核心数和主频的 CPU 运行速度更快, 更高的缓存也会提升运行效率。4 卡工作站环境中内存建议 256GB 以上, 存储也要依据使用需求来确定。
机箱要考虑电源、噪音、兼容性、扩展性等因素, 电源的话要计算所有组件的最大功率消耗并留有余量, 以应对峰值和未来硬件升级的可能。噪音和散热情况一定要提前了解, 因为这会直接影响办公环境 (还有心情)。
当然也可以更省事一点儿, 参考我们本次测试所采用的工作站的配置环境!
第三步安装操作系统、配置开发环境
AI 工作站到位安装好后, 可以根据偏好和软件兼容性, 选择合适的操作系统、驱动程序、软件等进行安装。同时配置开发环境所需的工具、模型、数据集等。
当然, 您也可以联系我们, 一站式配置好软硬件相关的环境, 做到开箱即用!
第四步测试与优化
通过运行一些基本的小型 AI 项目, 验证工作站在实际任务中的运行速度、稳定性、散热情况、噪音等情况。同时还可以利用 NVIDIA System Management Interface 等工具监控 GPU 使用情况, 根据需要调整代码或资源配置以提高显卡效率。
实际过程中, 大部分靠谱厂商出厂过程中会包含上述步骤。此时我们需要做的工作是在上述环境准备完善的前提下, 上传自己的数据, 通过 RAG 或者微调的方式对自己的数据做一次整理。接下来, 就迎接自己内部的问答机器人吧!
一步到位?
联系赞奇!