Python 网络爬虫:Urllib库的基本使用, requests不建议使用?

Python3不像2x中酷虎的和服务器模块结构散乱,Python3中把这些打包成为了2个包,就是http与urllib,详解如下:

 

http会处理所有客户端–服务器http请求的具体细节,其中:

(1)client会处理客户端的部分

(2)server会协助你编写Python web服务器程序

(3)cookies和cookiejar会处理cookie,cookie可以在请求中存储数据

urllib是基于http的高层库,它有以下三个主要功能:

(1)request处理客户端的请求

(2)response处理服务端的响应

(3)parse会解析url

urllib and urllib2 区别

  1. urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能。
  2. urllib2.urlopen accepts an instance of the Request class or a url, (whereas urllib.urlopen only accepts a url 中文意思就是:urllib2.urlopen可以接受一个Request对象或者url,(在接受Request对象时候,并以此可以来设置一个URL的headers),urllib.urlopen只接收一个url
  3. urllib 有urlencode,urllib2没有,这也是为什么总是urllib,urllib2常会一起使用的原因

 

除了使用官方标准库的urllib,我们可以使用更好用的第三方模块,如requests

Requests 完全满足如今网络的需求,其功能有以下:

国际化域名和 URLs
Keep-Alive & 连接池
持久的 Cookie 会话
类浏览器式的 SSL 加密认证
基本/摘要式的身份认证
优雅的键/值 Cookies
自动解压
Unicode 编码的响应体
多段文件上传
连接超时
支持 .netrc
适用于 Python 2.6—3.4
线程安全

1.分分钟扒一个网页下来

怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。

看,这个网页的源码已经被我们扒下来了,是不是很酸爽?

2.分析扒网页的方法

那么我们来分析这两行代码,第一行

response = urllib2.urlopen("http://www.baidu.com")

首先我们调用的是urllib2库里面的urlopen方法,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

import urllib
import urllib2
 
values = {"username":"XXXX","password":"XXXX"}
data = urllib.urlencode(values) 
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print(response.read())

我们引入了urllib库,现在我们模拟登陆CSDN,当然上述代码可能登陆不进去,因为CSDN还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。

我们需要定义一个字典,名字为values,参数我设置了username和password,下面利用urllib的urlencode方法将字典编码,命名为data,构建request时传入两个参数,url和data,运行程序,返回的便是POST后呈现的页面内容。

注意上面字典的定义方式还有一种,下面的写法是等价的

import urllib
import urllib2
 
values = {}
values['username'] = "XXXX"
values['password'] = "XXXX"
data = urllib.urlencode(values) 
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print(response.read())

以上方法便实现了POST方式的传送

GET方式:

至于GET方式我们可以直接把参数写到网址上面,直接构建一个带参数的URL出来即可。

import urllib
import urllib2
 
values={}
values['username'] = "XXXX"
values['password']="XXXX"
data = urllib.urlencode(values) 
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print(response.read())

你可以print geturl,打印输出一下url,发现其实就是原来的url加?然后加编码后的参数

和我们平常GET访问方式一模一样,这样就实现了数据的GET方式传送。

本节讲解了一些基本使用,可以抓取到一些基本的网页信息,小伙伴们加油!

 

 requests不建议使用?

IV. requests不是python自带的库,需要另外安装 easy_install or pip install

V. requests缺陷:直接使用不能异步调用,速度慢(from others)。官方的urllib可以替代它。

如果你使用python以外的语言,你可能会认为urllib和urllib2很容易使用,代码不多,而且功能非常强大,这就是我以前的想法。但是,请求包是如此令人难以置信的有用和简短,每个人都应该使用它。

首先,它支持一个完全安全的API,并且像以下一样简单:

import requests
...
 
resp = requests.get('http://www.mywebsite.com/user')
resp = requests.post('http://www.mywebsite.com/user')
resp = requests.put('http://www.mywebsite.com/user/put')
resp = requests.delete('http://www.mywebsite.com/user/delete')

无论GET / POST是否都不需要再编码参数,它只需要一个字典作为参数,并且很好。

userdata = {"firstname": "John", "lastname": "Doe", "password": "jdoe123"}
resp = requests.post('http://www.mywebsite.com/user', data=userdata)

加上它甚至有一个内置的json解码器(再次,我知道json.loads()不是很多写,但这肯定是方便的):

resp.json()

或者如果您的回复数据只是文本,请使用:

resp.text

更多内容,移步到:Python 网络爬虫:利用requests模拟登录实例讲解, 手把手教你利用session/cookie模拟登录

 

 

本文:Python 网络爬虫:Urllib库的基本使用, requests不建议使用?

Leave a Reply