网页爬虫 Archives

January 21, 2022

Excel技巧, 高效”爬虫”, 网页爬虫, Excel版网页爬虫, Excel抓取网络数据

By Gideon Others 0 Comments

炎炎夏日，突然灵机一动，我们是否可以使用excel获得上海历史若干年的天气数据呢？想好了就动，先查查互联网吧！（注：今天的文章步骤和截图相对较多）突然找到这么一家网站，看上去是包含我们想要的数据的数据包含历史每一天的最高温，最低温，天气，风向和风力观察URL构成 shanghaitianqi 如果选择了2017年1月的天气查询数据，URL就会变成这样子那么可以简单推断，历史数据的获得可以通过以下通项： Https://15tianqi.cn/[YEAR]shanghai… Read More

PHP采集框架QueryList, 网页爬虫, 网页抓取采集, PhantomJS, 模拟登录, 多线程采集

By Gideon Php / Pear / Mysql / Node.js 0 Comments

QueryList 简介 QueryList是一套简洁、优雅、可扩展的PHP采集工具(爬虫)，基于phpQuery。特性拥有与jQuery完全相同的CSS3 DOM选择器拥有与jQuery完全相同的DOM操作API 拥有通用的列表采集方案拥有强大的HTTP请求套件，轻松实现如：模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求拥有乱码解决方案拥有强大的内容过滤功能，可使用jQuey选择器来过滤内容拥有高度的模块化设计，扩展性强拥有富有表现力的API 拥有高质量文档拥有丰富的插件拥有专业的问答社区和交流群通过插件可以轻松实现诸如：多线程采集采集JavaScript动态渲染的页面 (… Read More

Linux: curl 命令行工具的使用及命令参数说明

By Gideon Ubuntu / Mac / Github / Aptana / Nginx / Shell / Linux 1 Comment

curl是一个开源的用于数据传输的命令行工具与库，它使用URL语法格式，支持众多传输协议，包括：HTTP、HTTPS、FTP、FTPS、GOPHER、TFTP、SCP、SFTP、SMB、TELNET、DICT、LDAP、LDAPS、FILE、IMAP、SMTP、POP3、RTSP和RTMP。curl库提供了很多强大的功能，你可以利用它来进行HTTP/HTTPS请求、上传/下载文件等，且支持Cookie、认证、代理、限速等。 1. curl的使用 1.1 URL访问访问一个网页时，可以使用curl命令后加上要访问的网址： $ curl justcode.ikeepstudying.com <html&g… Read More

Just Code

Tag: 网页爬虫

Excel技巧, 高效”爬虫”, 网页爬虫, Excel版网页爬虫, Excel抓取网络数据

PHP采集框架QueryList, 网页爬虫, 网页抓取采集, PhantomJS, 模拟登录, 多线程采集

Linux: curl 命令行工具的使用及命令参数说明