December 27, 2018
Python 网络爬虫:解析JSON, 获取JS动态内容—爬取今日头条, 抓取json内容
有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了。比如今日头条:
浏览器呈现的网页是这样的:
查看源码,却是这样的:
网页的新闻在HTML源码中一条都找不到,全是由JS动态生成加载。
遇到这种情况,我们应该如何对网页进行爬取呢?有两种方法:
1、从网页响应中找到JS脚本返回的JSON数据;2、使用Selenium对网页进行模拟访问
在此只对第一种方法作介绍,关于Selenium的使用,后面有专门的一篇。
一、从网页响应中找到JS脚本返回的JSON数据
即使网页内容是由JS动态生… Read More