在想要爬虫实现哔哩哔哩鬼畜区热门榜的数据进行数据分析,但是自己的技术不够,对js也一窍不通。上网后发现了selenium的一个库,觉得挺强大的,但是安装过程中出现了一些小问题,于是写下文章记录一下。

安装

像其他的库一样安装

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

错误

错误类型以及截图

运行的过程中出现了selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH.的错误。

错误截图

解决方法

查阅资料后了解到因为这个库是模拟客户端对浏览器的操作,从而来爬取资源的。出错的原因是由于相应浏览器的驱动版本不一样。

因为我用的是谷歌浏览器,所以首先需要查看其版本号,输入chrome://version/即可查看

版本号查看

然后进入http://chromedriver.storage.googleapis.com/index.html ,找到相应的版本

版本

然后选择自己的系统下载

下载

解压后获得chromedriver.exe,我们需要复制到两个目录下

  • C:\Program Files (x86)\Google\Chrome\Application
  • 安装python的目录

然后就可以正常使用了。

库的简单使用

1.调用

首先需要声明并调用谷歌浏览器,其它浏览器同理。

from selenium import webdriver
browser = webdriver.Chrome()

2.访问页面

加上下方代码,就会实现自动访问百度页面,然后返回百度页面原代码的功能。

url = 'https:www.baidu.com'
browser.get(url)#打开浏览器预设网址
print(browser.page_source)#打印网页源代码
browser.close()#关闭浏览器

其他的详细操作可以推荐查看这篇教程http://www.python3.vip/tut/auto/selenium/01/

Last modification:August 25, 2020
如果觉得我的文章对你有用,请随意赞赏