热门推荐
用C#+Selenium+ChromeDriver 爬取网页,模拟真实的用户浏览行为
2024-12-24 03:57

本文转载自微信公众号「UP技术控」,可以通过以下二维码关注。转载本文请联系UP技术控公众号。

背景

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。而对于爬虫来说,使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。这里,我将介绍selenium + 谷歌浏览器的一般使用。

需求

在平常的爬虫开发中,有时候网页是一堆js堆起来的代码,涉及很多异步计算,如果是普通的http 控制台请求,那么得到的源文件是一堆js ,需要自己在去组装数据,很费力;但是采用Selenium+ChromeDriver可以达到所见即所得的完美效果。

实现方式

项目结构:为了方便使用,用的winform程序,附nuget包

 

以下是form1.cs的代码,这里就只放关键方法代码了。需要安装最新的chrome浏览器+代码中使用的chromedriver是 v2.9.248315

效果

 

总结

说一下思路:

跳转到指定的网页driver.Navigate().GoToUrl

确定数据源,从driver.PageSource读取数据

对html数据进行解析

    以上就是本篇文章【用C#+Selenium+ChromeDriver 爬取网页,模拟真实的用户浏览行为】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/11261.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评