Tag: 网页爬虫

PHP采集框架QueryList, 网页爬虫, 网页抓取采集, PhantomJS, 模拟登录, 多线程采集

  QueryList 简介 QueryList是一套简洁、优雅、可扩展的PHP采集工具(爬虫),基于phpQuery。   特性 拥有与jQuery完全相同的CSS3 DOM选择器 拥有与jQuery完全相同的DOM操作API 拥有通用的列表采集方案 拥有强大的HTTP请求套件,轻松实现如:模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求 拥有乱码解决方案 拥有强大的内容过滤功能,可使用jQuey选择器来过滤内容 拥有高度的模块化设计,扩展性强 拥有富有表现力的API 拥有高质量文档 拥有丰富的插件 拥有专业的问答社区和交流群… Read More

Linux: curl 命令行工具的使用及命令参数说明

curl是一个开源的用于数据传输的命令行工具与库,它使用URL语法格式,支持众多传输协议,包括:HTTP、HTTPS、FTP、FTPS、GOPHER、TFTP、SCP、SFTP、SMB、TELNET、DICT、LDAP、LDAPS、FILE、IMAP、SMTP、POP3、RTSP和RTMP。curl库提供了很多强大的功能,你可以利用它来进行HTTP/HTTPS请求、上传/下载文件等,且支持Cookie、认证、代理、限速等。 1. curl的使用 1.1 URL访问 访问一个网页时,可以使用curl命令后加上要访问的网址: $ curl justcode.ikeepstudying.com <html> <head><title>301 Moved Permanently</title></head> <body bgcolor="white"> <center><h1>301 Moved Permanently</h1></center>… Read More