php爬取微信文章内容
在做官网升级的时遇到新的需求,需要将公司公众号文章显示在官网的文章模块下。但存在的问题是:微信文章的链接会失效,并且需要对文章部分内容做修改,同时要减少微信运营人员的工作量,避免重新上传素材编辑排版等,所以决定根据链接爬取文章的富文本内容。
实现的方式是基于http://weixin.sogou.com/,在这个站点可以搜索公众号,以及公众号的文章,这样就可以使用curl模拟请求,获取文章信息,然后正则处理,获取html文本,无图文本,以及文章的标题、封面、作者等基本信息。
同时一个问题是,微信文章的图片都是防盗链的,所以直接使用它的url是无法正常显示的,这样在正则处理文章内容时,需要对img标签的src进行处理,处理的方法是模拟来源为,需要自己的服务器的支持。实现方式查看php解决微信文章图片防盗链
基于weixin.sogou.com,其实还可以做到更多,如输入公众号,搜索公众号的最新文章,自动按时爬取等功能,但目前的需求问题已经解决了,所以目前只是一个简单的版本。
此外,本PHP版本是参考了一个Python版本爬取微信文章的思路,但地址忘记了,感谢那位兄弟。
以上就是本篇文章【php爬取微信文章内容】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/9322.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多