本文章学习大佬博客才得以完成
本地部署OmniParser微软最强开源屏幕解析模型!最强开源屏幕解析工具,面向纯视觉的GUI代理!实现用户界面截图解析为结构化!结合pyautogui实现自动点击指定元素!#OmniParser (stoeng.site)
如果没有的话,需要先进行安装,后边需要用到
具体的安装流程如下:
安装conda搭建python环境(保姆级教程)_conda创建python虚拟环境-CSDN博客
安装好了,以后进行测试,检查是否安装好了
首先需要将cmd打开,最好右击用管理员打开
打开以后需要对路径进行更改(最好自己创建一个文件夹)
操作流程
1、先换一个盘
2、打开到需要进行配置的文件夹 cd 文件夹的名字 ——代表进入文件夹
cd .. ——代表返回上一级目录
3、进入文件夹后,进行环境的配置,输入命令安装python (OmniParser要求python是3.12版本)(在cmd中输入)
完成后输入
如果提示没有Init,按照提示进行Init即可,Init结束后,关闭cmd重新打开(没有提示这个则不用管)
正常如下
4、安装openai(在cmd中输入)
5安装pytorch(在cmd中输入)
6下载源文件
在Github上下载源文件(由于我没有装Git,因此我进行压缩包的下载)
链接https://github.com/microsoft/OmniParser?tab=readme-ov-file
点击download zip,将其下载到上边建立的文件夹中,也就是test文件夹,并进行解压
7、进行requirements.txt文档中的依赖安装(在cmd中输入)
8、接下来需要下载模型文件
下载地址https://huggingface.co/microsoft/OmniParser
由于需要下载的模型很大,这里选择找了一个镜像网站进行下载,速度很快
镜像网站HF-Mirror 在这个里边搜索microsoft/OmniParser
可以看到对应的模型文件
将四个文件夹里边的内容全部下载,并放到weights文件夹中,完成如下