Skip to content

a simple crawler to fetch pictures in Qzone [stop maintaining]

Notifications You must be signed in to change notification settings

ramsayleung/qzonePictureSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Update 2017-6-25

QQ 空间使用了新的加密方式,原来的破解已经失效

好友QQ空间图片爬虫

爬虫功能

QQSpider 爬取好友qq 空间的图片。因为QQ空间要先登录才能进行数据爬取,所以你需要 一个登录帐户和若干个你需要爬取的若干个好友的QQ号。需要提醒的是,爬虫不是hacker tools,是没有办法爬取到你没有权限查看的好友的照片的,希望理解

环境,架构

开发语言:python 3.5+ 开发环境:64位Linux 开发工具:Emacs25.1 开发框架:scrapy 其它:使用selenium,PhantomJs 抓取cookie

使用说明

  1. 安装 phantomJs 并在 get_cookie.py 里面的
   browser = webdriver.PhantomJS(
	 executable_path="/usr/local/bin/phantomjs")

/usr/local/bin/phantomjs 更改为你的phantomJs 的安装目录

  1. 更改 setting.py 里面的IMAGRS_STORE 变量,改成你要存储的图片的路径
IMAGES_STORE = '/home/samray/Images'
  1. 安装 依赖
pip install -r requirements.txt
  1. 在根目录有是一个QQ_for_crawl.txt的文件,在文本上输入你需要爬取的好友的qq号

每行一个号码,然后在项目的根目录下面 输入命令行 scrapy crawl qq

  1. 输入你的qq 帐号和密码,截图如下: ./images/qzone_picture_spider.png

运行结果

因为好友图片和QQ 号码涉及好友隐私,所以就不上图了。 爬取速度会受网络环境的影响,考虑到网络,稳定等因素,我自身的网络环境, 运行一个小时,大概爬取了30000+的图片,不同环境,速度很自然不一样

备注

在分析qq 空间图片的时候,我发现,在5年以前的图片,上传到QQ 空间以后,是没有 原图的了,但是近2年上传的图片是有原图,个人猜测,可能是因为,以前等宽和存储 设备等费用比较高昂,所以QQ 空间就没有保存原图,后来或许是因为成本或者是技术等 因素,又保存了原图。所以爬取的时候,我是尽量先爬取原图,没有原图,再爬取缩略图

参考

致谢: http://blog.csdn.net/bone_ace/article/details/50771839 http://blog.csdn.net/gsls200808/article/details/48209917

About

a simple crawler to fetch pictures in Qzone [stop maintaining]

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages