爬取腾讯动漫海贼王

前置知识:python基础语法

python版本:python3.7.1

使用工具:PyCharm Chrome

主要使用的python模块: 1. selenium 2. re

可以通过 我的github主页 获取源码

以下内容仅供学习使用


以爬取腾讯动漫的 海贼王 为例

  1. 通过Chrome浏览器发现网站中的图片是动态加载的,只有滚动条滚动到的图片才会加载,并且加载需要一定的时间。
  2. 网站中每一话的URL有明显的规律,给出第一话的URLhttp://ac.qq.com/ComicView/index/id/505430/cid/1,只需改变最后一位的数字便能定位到每一话的URL

使用selenium模块仅需短短五十行代码就能就能获取海贼王每一张图片的URL。

亮代码前先说说这个方案的优缺点:

优点:逻辑简单,使用范围广,稍微修改下便能爬取腾讯动漫其它的免费内容

缺点:耗时较长,获取海贼王近两万张图片的URL要大概3小时

程序代码及思想

主要思想就是使用selenium这个浏览器自动化测试框架,编写程序完成:

  1. 打开每一话URL,操作滚动条,等待所有图片加载完成
  2. 通过re模块提取其中每张图片的URL到本地

给出 selenium 的文档,可供搜索各种方法的使用及源代码实现

顺便提醒安装相应浏览器驱动时要注意版本,并将驱动保存在python环境的Scripts目录下即可

下述代码使用Chrome浏览器及相应驱动

结果展示

部分获得的图片URL

py_3_1

再从各个图片URL将图片下载到本地,这步就不提供源代码了,通过urlopen即可完成

py_3_2

 

编辑于2018-11-23 17:49:13

浙ICP备18050335号