Tag: phantomjs

PHP采集框架QueryList, 网页爬虫, 网页抓取采集, PhantomJS, 模拟登录, 多线程采集

  QueryList 简介 QueryList是一套简洁、优雅、可扩展的PHP采集工具(爬虫),基于phpQuery。   特性 拥有与jQuery完全相同的CSS3 DOM选择器 拥有与jQuery完全相同的DOM操作API 拥有通用的列表采集方案 拥有强大的HTTP请求套件,轻松实现如:模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求 拥有乱码解决方案 拥有强大的内容过滤功能,可使用jQuey选择器来过滤内容 拥有高度的模块化设计,扩展性强 拥有富有表现力的API 拥有高质量文档 拥有丰富的插件 拥有专业的问答社区和交流群 通过插件可以轻松实现诸如: 多线程采集 采集JavaScript动态渲染的页面 (… Read More

Linux: shell脚本获取网页快照(网页截图)并生成缩略图

获取网页快照并生成缩略图可分两步进行: 1、获取网页快照 2、生成缩略图   获取网页快照 这里我们用 phantomjs 来实现。关于 phantomjs 的详细用法可参考官方网站。   1、安装 我的环境是CentOS6.5,安装时直接下载 tarball 然后解压即可。 最新版参看:https://github.com/ariya/phantomjs,下载地址为: https://phantomjs.org/download.html # wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-i686.ta… Read More