用C#+Selenium+ChromeDriver 爬取网页，模拟真实的用户浏览行为

本文转载自微信公众号「UP技术控」，可以通过以下二维码关注。转载本文请联系UP技术控公众号。

背景

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。而对于爬虫来说，使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。这里，我将介绍selenium + 谷歌浏览器的一般使用。

需求

在平常的爬虫开发中，有时候网页是一堆js堆起来的代码，涉及很多异步计算，如果是普通的http 控制台请求，那么得到的源文件是一堆js ，需要自己在去组装数据，很费力;但是采用Selenium+ChromeDriver可以达到所见即所得的完美效果。

实现方式

项目结构：为了方便使用，用的winform程序，附nuget包

以下是form1.cs的代码，这里就只放关键方法代码了。需要安装最新的chrome浏览器+代码中使用的chromedriver是 v2.9.248315

效果

总结

说一下思路:

跳转到指定的网页driver.Navigate().GoToUrl

确定数据源，从driver.PageSource读取数据

对html数据进行解析

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行