January 15, 2018
JAVA:设计和实现一款轻量级的爬虫框架, JAVA爬虫, JAVA抓取页面, JAVA Crawler
说起爬虫,大家能够想起 Python 里赫赫有名的 Scrapy 框架, 在本文中我们参考这个设计思想使用 Java 语言来实现一款自己的爬虫框(lun)架(zi)。 我们从起点一步一步分析爬虫框架的诞生过程。
我把这个爬虫框架的源码放在 github上,里面有几个例子可以运行。
关于爬虫的一切
下面我们来介绍什么是爬虫?以及爬虫框架的设计和遇到的问题。
什么是爬虫?
“爬虫”不是一只生活在泥土里的小虫子,网络爬虫(web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览网络上内容的机器人。 爬虫访问网站的过程会消耗目标系统资源,很多网站不允许被爬虫抓取(这就是你遇到过的 robots.txt 文件, 这个… Read More