December 27, 2018

Python 网络爬虫：Python解析html, Beautiful Soup的用法

By Gideon Python / Wxpython 0 Comments

我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这一节就让我们一起来感受一下Beautiful Soup的强大吧。 1. Beautiful Soup的简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicod… Read More

December 27, 2018

python：三元表达式, python三目运算符

By Gideon Python / Wxpython 0 Comments

python中没有其他语言中的三元表达式，不过有类似的实现方法其他语言中，例如java的三元表达式是这样 int a = 1; String b = ""; b = a > 1? "执行表达式1":"执行表达式2" System.out.println(b) 在python中只有类似的替代办法，如果a>b的结果为真，h=”变量1″,如果为假，h=”变量2″ a = 1 b = 2 h = "" h = "变量1" if a>b else "变量2" print(h) 也可以用简单的公式，如下， a = 1 b = 2 h = "" h = a-b if a>b else a+b print(h) &n… Read More

December 27, 2018

Python 网络爬虫：解析JSON, 获取JS动态内容—爬取今日头条, 抓取json内容

By Gideon Python / Wxpython 0 Comments

有一些网站的内容由前端的JS动态生成，由于呈现在网页上的内容是由JS生成而来，我们能够在浏览器上看得到，但是在HTML源码中却发现不了。比如今日头条：浏览器呈现的网页是这样的：查看源码，却是这样的：网页的新闻在HTML源码中一条都找不到，全是由JS动态生成加载。遇到这种情况，我们应该如何对网页进行爬取呢？有两种方法： 1、从网页响应中找到JS脚本返回的JSON数据；2、使用Selenium对网页进行模拟访问在此只对第一种方法作介绍，关于Selenium的使用，后面有专门的一篇。一、从网页响应中找到JS脚本返回的JSON数据即使网页内容是由JS动态生… Read More

December 27, 2018

Python 报错：“’cookies.txt’ does not look like a Set-Cookie3 (LWP) format file”和“invalid Netscape format cookies”

By Gideon Python / Wxpython 0 Comments

如果遇到 http.cookiejar.LoadError: ‘cookies.txt’ does not look like a Set-Cookie3 (LWP) format file 或 http.cookiejar.LoadError: ‘cookie.txt’ does not look like a Netscape format cookies file 的问题，那么，原因是cookies.txt文件的内容格式不对！不知道怎么修改，怎么办呢？办法：把 CookieJar自己cookie.save()保存下来的文件，用notepad打开来看看，就知道格式了例如：报错： … Read More

December 27, 2018

Python 网络爬虫：利用requests模拟登录实例讲解, 手把手教你利用session/cookie模拟登录

By Gideon Python / Wxpython 1 Comment

Python 网络爬虫：关于简单的模拟登录实例讲解, 手把手教你利用session/cookie模拟登录

1. 了解cookie和session 首先一定要先了解到cookie和session是什么，这是后面理解网站交互，模拟用户登录的基础。 1.1. 无状态协议：Http 如上图所示，HTTP协议是无状态的协议，用户浏览服务器上的内容，只需要发送页面请求，服务器返回内容。对于服务器来说，并不关心，也并不知道是哪个用户的请求。对于一般浏览性的网页来说，没有任何问题。但是，现在很多的网站，是需要用户登录的。以淘宝为例：比如说某个用户想购买一个产品，当点击 “ 购买按钮 ” 时，由于HTTP协议是无状态的，那对于淘宝来说，就不知道是哪个用户操作的。为了实现这种用户标记，服务器就采用了cookie… Read More

December 27, 2018

Python 3 之Requests高级用法: Python爬虫利器Requests库的用法, Requests库操作session会话, Requests库操作SSL 证书验证

By Gideon Python / Wxpython 1 Comment

Python 3: Requests快速上手, Python爬虫利器Requests库的用法, Requests库简明使用教程

高级用法本篇文档涵盖了 Requests 的一些高级特性。会话对象会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie，期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求，底层的 TCP 连接将会被重用，从而带来显著的性能提升。 (参见 HTTP persistent connection). 会话对象具有主要的 Requests API 的所有方法。我们来跨请求保持一些 cookie: s = requests.Session() s.get('http://httpbin.org/cookies/set/s… Read More

December 27, 2018

Python 3 之 Requests快速上手: Python爬虫利器Requests库的用法, Requests库简明使用教程

By Gideon Python / Wxpython 1 Comment

安装 Requests 要安装 Requests，只要在你的终端中运行这个简单命令即可： $ pip install requests 如果你没有安装 pip （啧啧），这个 Python installation guide （英文）可以带你完成这一流程。或者看中文版：Python3安装 pip3 获得源码 Requests 一直在 Github 上积极地开发，你可以一直从这里获取到代码。你可以克隆公共版本库： git clone git://github.com/kennethreitz/requests.git 也可以下载 tarball: $ curl -OL https://github.com/requests/requests/t… Read More

Just Code

Day: December 27, 2018

Python 网络爬虫：Python解析html, Beautiful Soup的用法

python：三元表达式, python三目运算符

Python 网络爬虫：解析JSON, 获取JS动态内容—爬取今日头条, 抓取json内容

Python 报错：“’cookies.txt’ does not look like a Set-Cookie3 (LWP) format file”和“invalid Netscape format cookies”

Python 网络爬虫：利用requests模拟登录实例讲解, 手把手教你利用session/cookie模拟登录

Python 3 之Requests高级用法: Python爬虫利器Requests库的用法, Requests库操作session会话, Requests库操作SSL 证书验证

Python 3 之 Requests快速上手: Python爬虫利器Requests库的用法, Requests库简明使用教程