QQ 空间使用了新的加密方式,原来的破解已经失效
QQSpider 爬取好友qq 空间的图片。因为QQ空间要先登录才能进行数据爬取,所以你需要 一个登录帐户和若干个你需要爬取的若干个好友的QQ号。需要提醒的是,爬虫不是hacker tools,是没有办法爬取到你没有权限查看的好友的照片的,希望理解
开发语言:python 3.5+ 开发环境:64位Linux 开发工具:Emacs25.1 开发框架:scrapy 其它:使用selenium,PhantomJs 抓取cookie
- 安装 phantomJs 并在 get_cookie.py 里面的
browser = webdriver.PhantomJS(
executable_path="/usr/local/bin/phantomjs")
/usr/local/bin/phantomjs 更改为你的phantomJs 的安装目录
- 更改 setting.py 里面的IMAGRS_STORE 变量,改成你要存储的图片的路径
IMAGES_STORE = '/home/samray/Images'
- 安装 依赖
pip install -r requirements.txt
- 在根目录有是一个QQ_for_crawl.txt的文件,在文本上输入你需要爬取的好友的qq号
每行一个号码,然后在项目的根目录下面 输入命令行 scrapy crawl qq
因为好友图片和QQ 号码涉及好友隐私,所以就不上图了。 爬取速度会受网络环境的影响,考虑到网络,稳定等因素,我自身的网络环境, 运行一个小时,大概爬取了30000+的图片,不同环境,速度很自然不一样
在分析qq 空间图片的时候,我发现,在5年以前的图片,上传到QQ 空间以后,是没有 原图的了,但是近2年上传的图片是有原图,个人猜测,可能是因为,以前等宽和存储 设备等费用比较高昂,所以QQ 空间就没有保存原图,后来或许是因为成本或者是技术等 因素,又保存了原图。所以爬取的时候,我是尽量先爬取原图,没有原图,再爬取缩略图
致谢: http://blog.csdn.net/bone_ace/article/details/50771839 http://blog.csdn.net/gsls200808/article/details/48209917