在想要爬虫实现哔哩哔哩鬼畜区热门榜的数据进行数据分析,但是自己的技术不够,对js也一窍不通。上网后发现了selenium的一个库,觉得挺强大的,但是安装过程中出现了一些小问题,于是写下文章记录一下。
安装
像其他的库一样安装
pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple
错误
错误类型以及截图
运行的过程中出现了selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH.
的错误。
解决方法
查阅资料后了解到因为这个库是模拟客户端对浏览器的操作,从而来爬取资源的。出错的原因是由于相应浏览器的驱动版本不一样。
因为我用的是谷歌浏览器,所以首先需要查看其版本号,输入chrome://version/
即可查看
然后进入http://chromedriver.storage.googleapis.com/index.html
,找到相应的版本
然后选择自己的系统下载
解压后获得chromedriver.exe
,我们需要复制到两个目录下
C:\Program Files (x86)\Google\Chrome\Application
- 安装python的目录
然后就可以正常使用了。
库的简单使用
1.调用
首先需要声明并调用谷歌浏览器,其它浏览器同理。
from selenium import webdriver
browser = webdriver.Chrome()
2.访问页面
加上下方代码,就会实现自动访问百度页面,然后返回百度页面原代码的功能。
url = 'https:www.baidu.com'
browser.get(url)#打开浏览器预设网址
print(browser.page_source)#打印网页源代码
browser.close()#关闭浏览器
其他的详细操作可以推荐查看这篇教程http://www.python3.vip/tut/auto/selenium/01/