Tag: 网页爬虫

Excel技巧, 高效”爬虫”, 网页爬虫, Excel版网页爬虫, Excel抓取网络数据

  炎炎夏日,突然灵机一动,我们是否可以使用excel获得上海历史若干年的天气数据呢? 想好了就动,先查查互联网吧! (注:今天的文章步骤和截图相对较多)     突然找到这么一家网站,看上去是包含我们想要的数据的     数据包含历史每一天的最高温,最低温,天气,风向和风力     观察URL构成 shanghaitianqi     如果选择了2017年1月的天气查询数据,URL就会变成这样子     那么可以简单推断,历史数据的获得可以通过以下通项: Https://15tianqi.cn/[YEAR]shanghai… Read More

PHP采集框架QueryList, 网页爬虫, 网页抓取采集, PhantomJS, 模拟登录, 多线程采集

  QueryList 简介 QueryList是一套简洁、优雅、可扩展的PHP采集工具(爬虫),基于phpQuery。   特性 拥有与jQuery完全相同的CSS3 DOM选择器 拥有与jQuery完全相同的DOM操作API 拥有通用的列表采集方案 拥有强大的HTTP请求套件,轻松实现如:模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求 拥有乱码解决方案 拥有强大的内容过滤功能,可使用jQuey选择器来过滤内容 拥有高度的模块化设计,扩展性强 拥有富有表现力的API 拥有高质量文档 拥有丰富的插件 拥有专业的问答社区和交流群 通过插件可以轻松实现诸如: 多线程采集 采集JavaScript动态渲染的页面 (… Read More

Linux: curl 命令行工具的使用及命令参数说明

curl是一个开源的用于数据传输的命令行工具与库,它使用URL语法格式,支持众多传输协议,包括:HTTP、HTTPS、FTP、FTPS、GOPHER、TFTP、SCP、SFTP、SMB、TELNET、DICT、LDAP、LDAPS、FILE、IMAP、SMTP、POP3、RTSP和RTMP。curl库提供了很多强大的功能,你可以利用它来进行HTTP/HTTPS请求、上传/下载文件等,且支持Cookie、认证、代理、限速等。 1. curl的使用 1.1 URL访问 访问一个网页时,可以使用curl命令后加上要访问的网址: $ curl justcode.ikeepstudying.com <html&g… Read More