1.Cookie简介
基于 Internet的各种服务系统应运而生,建立商业站点或者功能比较完善的个人站点,常常需要记录访问者的一些信息;论坛作为 Internet发展的产物之一,在 Internet 中发挥着越来越重要的作用,是用户获取、交流、传递信息的主要场所之一,论坛常常也需要记录访问者的一些基本信息(如身份识别号码、密码、用户在 Web 站点购物的方式或用户访问该站点的次数)。目前公认的是,通过 Cookie 和 Session 技术来实现记录访问者的一些基本信息——百度百科
cookies简单来说就是服务器端网站,是为了提高网站安全性而做的一种方案。一般来说,登陆到网站都需要进行cookie验证,而有的网站上的内容需要我们登陆后才能抓取查看。所以我们在使用python编写爬虫的时候,在登陆的时候就需要记录下cookie信息。然后再进行登陆,就可以了。
2.python3.6中的opener
The OpenerDirector class opens URLs via BaseHandlers chained together. It manages the chaining of handlers, and recovery from errors.
这个类是用来打开URL链接的,我们前面用到的urlopen这个方法,实际上可以理解成opener的特殊实例对象。传入的参数仅仅是url,data,timeout。而我们要使用cookie的话,这个方法就没有这个功能了,必须使用opener对象,来打开url。下面这行代码是用来build构建一个opener对象的,传入的proHandler参数,具体类型可以在下面这个链接里查看:https://docs.python.org/3.6/library/urllib.request.html
urllib.request.
build_opener
([handler, …])Return an OpenerDirector instance, which chains the handlers in the order given. handlers can be either instances of BaseHandler, or subclasses of BaseHandler (in which case it must be possible to call the constructor without any parameters).
返回一个OpenerDirector实例,它按照给定的顺序链接处理程序。处理程序可以是基类处理程序的实例,也可以是基类处理程序的子类(在这种情况下,必须调用构造函数而不需要任何参数)。
1 2 3 |
cj = http.cookiejar.CookieJar() proHandler = urllib.request.HTTPCookieProcessor(cj) opener = urllib.request.build_opener(proHandler) |
这3行代码,上面两行是获取cookie实例的,我们在下面第3部分进行讲解。第三行是构建opener实例对象。构建完对象,我们就可以使用这个对象的方法了。咱们还打开这个链接:https://docs.python.org/3.6/library/urllib.request.html。然后下拉找到:21.6.2. OpenerDirector Objects。这里有这个对象的方法:
OpenerDirector.
open
(url, data=None[, timeout])Open the given url (which can be a request object or a string), optionally passing the given data. Arguments, return values and exceptions raised are the same as those of
urlopen()
(which simply calls theopen()
method on the currently installed globalOpenerDirector
). The optional timeout parameter specifies a timeout in seconds for blocking operations like the connection attempt (if not specified, the global default timeout setting will be used). The timeout feature actually works only for HTTP, HTTPS and FTP connections).
这里就能看到,urlopen()这个方法是
opener实例.open()方法简化版。这些资料在上面的链接中都能查到,很方便。关于这个opener的实例方法还有另外两个OpenerDirector.
add_handler
(handler)和OpenerDirector.
error
(proto, *args)具体信息大家自己去看吧。
3.python3.6中Cookie应用
在python3.6中,cookie的存储是由import http.cookiejar这个模块库里的方法实现的。大家打开上面带大家看的网页,然后找到21.24. http.cookiejar
— Cookie handling for HTTP clients,这个模块专门负责cookie相关内容的。https://docs.python.org/3.6/library/http.cookiejar.html
The http.cookiejar module defines classes for automatic handling of HTTP cookies. It is useful for accessing web sites that require small pieces of data – cookies – to be set on the client machine by an HTTP response from a web server, and then returned to the server in later HTTP requests.
这个模块定义了自动处理HTTP cookies的类。通过访问Web服务器上的HTTP响应,这对于很多网站来说非常有用。网站服务器可以将需要的cookies数据,通过HTTP响应的方式设置到客户端设备上,这样在后期的http请求服务中,就可以使用这个cookies信息进行身份认证。
大家打开的这网页,还有其他的关于cookies的类,比如http.cookiejar.
FileCookieJar
(filename, delayload=None, policy=None),然后是FileCookieJar的子类: http.cookiejar.
MozillaCookieJar
(filename, delayload=None, policy=None)和class http.cookiejar.
LWPCookieJar
(filename, delayload=None, policy=None)。这部分内容在这里:https://docs.python.org/3.6/library/http.cookiejar.html#file-cookie-jar-classes
CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar(保存文件格式为txt)和LWPCookieJar(这个类是兼容libwww-perl系统库的格式的,在上面的链接中也有说明)
1.获取Cookie保存到变量
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
import urllib.request import http.cookiejar import ssl # 取消全局SSL验证,不写这句 可能会报SSL验证失败 ssl._create_default_https_context = ssl._create_unverified_context # 获取百度cookies baidu_cookie = http.cookiejar.CookieJar() proHandler = urllib.request.HTTPCookieProcessor(baidu_cookie) opener = urllib.request.build_opener(proHandler) # 注意这里是 https 不是http,我一开始写成http,一直报 urllib.error.HTTPError: HTTP Error 400: Bad Request baidu_url = 'https://www.baidu.com' # 访问百度 response = opener.open(baidu_url) # 打印cookies for item in baidu_cookie: print("name = " + item.name) print("value = " + item.value) |
python3.6将python2.7内的urllib2库合并到了urllib库下,所以这部分写法和python2.7的写法略有不同。
下面是打印出来的cookies信息:
1 2 3 4 5 6 7 8 9 |
D:\python\python.exe E:/技术学习/Python代码/9.保存简单的cookies到变量/bianliang_cookies.py name = BIDUPSID value = E2986B8E4FCBD7F0F7CF039A78271A84 name = PSTM value = 1531290436 name = BD_NOT_HTTPS value = 1 进程已结束,退出代码0 |
打开python标准库文件链接,然后查看http.cookiejar.
CookieJar
类的相关说明如下
class
http.cookiejar.
CookieJar
(policy=None)policy is an object implementing the
CookiePolicy
interface.The
CookieJar
class stores HTTP cookies. It extracts cookies from HTTP requests, and returns them in HTTP responses.CookieJar
instances automatically expire contained cookies when necessary. Subclasses are also responsible for storing and retrieving cookies from a file or database.
从官方的标准库说明中,我们可以看到http.cookiejar.
CookieJar
,是专门用来保存http cookies的。客户端通过HTTP request请求来表明自己需要获取cookies信息,然后服务器端根据请求响应在HTTP的 response响应头中返回需要的cookies信息。调用这个类的方法,我们就能获得cookie信息。获取到cookie信息后,需要使用HTTPCookieProcessor进行处理。
处理完成即可使用opener进行访问
class
urllib.request.
HTTPCookieProcessor
(cookiejar=None)A class to handle HTTP Cookies.
这个英文引用也是官方原文的,在上文中提到的链接中,查找这个类。
这里补充一下https的小知识,具体内容大家自己百度查看别的博客吧
HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。 它是一个URI scheme(抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输。https:URL表明它使用了HTTP,但HTTPS存在不同于HTTP的默认端口及一个加密/身份验证层(在HTTP与TCP之间)。这个系统的最初研发由网景公司(Netscape)进行,并内置于其浏览器Netscape Navigator中,提供了身份验证与加密通讯方法。现在它被广泛用于万维网上安全敏感的通讯,例如交易支付方面。
2.获取Cookie保存到文件
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
import urllib.request import http.cookiejar import ssl # 取消全局SSL验证,不写这句 可能会报SSL验证失败 ssl._create_default_https_context = ssl._create_unverified_context baiduCookieFileName = "cookie.txt" # 获取百度cookies baidu_cookie = http.cookiejar.MozillaCookieJar(baiduCookieFileName) proHandler = urllib.request.HTTPCookieProcessor(baidu_cookie) opener = urllib.request.build_opener(proHandler) # 注意这里是 https 不是http,我一开始写成http,一直报 urllib.error.HTTPError: HTTP Error 400: Bad Request baidu_url = 'https://www.baidu.com' # 访问百度 response = opener.open(baidu_url) # 打印cookies for item in baidu_cookie: print("name = " + item.name) print("value = " + item.value) # 保存cookie到文件 baidu_cookie.save(ignore_discard=True, ignore_expires=True) |
ignore_discard的意思是即使cookies将被丢弃也将它保存下来,ignore_expires的意思是如果在该文件中cookies已经存在,则覆盖原文件写入,在这里,我们将这两个全部设置为True。运行之后,cookies将被保存到cookie.txt文件中。运行成功之后,然后打开本工程所在目录,就能找到生成的cookie.txt文件。我们打开cookie.txt文件,其内容如下:
1 2 3 4 5 6 7 |
# Netscape HTTP Cookie File # http://curl.haxx.se/rfc/cookie_spec.html # This is a generated file! Do not edit. .baidu.com TRUE / FALSE 3678774582 BIDUPSID B5E24F011FAE9A74CF8898D712D6C9F6 .baidu.com TRUE / FALSE 3678774582 PSTM 1531290935 www.baidu.com FALSE / FALSE 1531291235 BD_NOT_HTTPS 1 |
这样我们就保存成功了cookie文件。下面我们将分析一下MozillaCookieJar,打开链接:https://docs.python.org/3.6/library/http.cookiejar.html#file-cookie-jar-classes
class
http.cookiejar.
MozillaCookieJar
(filename, delayload=None, policy=None)A
FileCookieJar
that can load from and save cookies to disk in the Mozillacookies.txt
file format (which is also used by the Lynx and Netscape browsers).
这个类是FileCookieJar
的子类,通过这个类的方法,可以实现cookie的保存。cookie文件格式为txt。这个类可以使用save方法保存cookie到文件,也可以使用load方法,将cookie载出使用。
FileCookieJar.
save
(filename=None, ignore_discard=False, ignore_expires=False)Save cookies to a file.
FileCookieJar.
load
(filename=None, ignore_discard=False, ignore_expires=False)Load cookies from a file.
3.从文件访问cookie并访问
这里我新建了一个文件夹,然后将上面获得的cookie.txt文件拷到了当前工程下,如果没有拷贝会报如下错误:
1 2 3 4 5 6 7 8 9 |
D:\python\python.exe E:/技术学习/Python代码/11.获取cookies并访问/get_cookie.py Traceback (most recent call last): File "E:/技术学习/Python代码/11.获取cookies并访问/get_cookie.py", line 10, in <module> baidu_cookie.load(baiduCookieFileName,ignore_discard=True, ignore_expires=True) File "D:\python\lib\http\cookiejar.py", line 1783, in load with open(filename) as f: FileNotFoundError: [Errno 2] No such file or directory: 'cookie.txt' 进程已结束,退出代码1 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
import urllib.request import http.cookiejar import ssl # 取消全局SSL验证,不写这句 可能会报SSL验证失败 ssl._create_default_https_context = ssl._create_unverified_context baiduCookieFileName = "cookie.txt" # 获取百度cookies baidu_cookie = http.cookiejar.MozillaCookieJar() # 将cookie.txt文件载入到当前的cookie对象中 baidu_cookie.load(baiduCookieFileName,ignore_discard=True, ignore_expires=True) proHandler = urllib.request.HTTPCookieProcessor(baidu_cookie) opener = urllib.request.build_opener(proHandler) # 注意这里是 https 不是http,我一开始写成http,一直报 urllib.error.HTTPError: HTTP Error 400: Bad Request baidu_url = 'https://www.baidu.com' # 访问百度 response = opener.open(baidu_url) print(response.read()) |
运行结果如下:代表我们成功载入cookie并成功连接网站:
1 2 3 4 |
D:\python\python.exe E:/技术学习/Python代码/11.获取cookies并访问/get_cookie.py b'<html>\r\n<head>\r\n\t<script>\r\n\t\tlocation.replace(location.href.replace("https://","http://"));\r\n\t</script>\r\n</head>\r\n<body>\r\n\t<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>\r\n</body>\r\n</html>' 进程已结束,退出代码0 |
4.升级登陆CSDN的代码
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 |
from bs4 import BeautifulSoup import http.cookiejar import urllib.parse import gzip import ssl import os # 该函数用来设置opener的header def setHeader(head,opener): header = [] for key, value in head.items(): elem = (key, value) header.append(elem) opener.addheaders = header # 定义一个方法来解压返回信息 服务器返回的数据是经过gzip压缩的 需要解压 def ungzip(data): try: # 尝试解压 print('正在解压.....') data = gzip.decompress(data) print('解压完毕!') except: print('未经压缩, 无需解压') return data # 封装头信息,伪装成浏览器 header = { 'Connection': 'Keep-Alive', 'Accept-Language': 'zh-CN,zh;q=0.8', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'X-Requested-With': 'XMLHttpRequest', } # 取消SSL全局认证 ssl._create_default_https_context = ssl._create_unverified_context login_csdn = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn" csdnCookieFileName = "csdn_cookie.txt" # 判断工程目录下 csdn_cookie.txt文件是否存在 if os.path.exists(csdnCookieFileName): # 说明当前目录下cookies 存在 csdnCookie = http.cookiejar.MozillaCookieJar() csdnCookie.load(csdnCookieFileName) else: # 说明目录下cookie不存在 自己生成cookie文件 csdnCookie = http.cookiejar.MozillaCookieJar(csdnCookieFileName) csdnCookie.save(ignore_discard=True, ignore_expires=True) csdnHandler = urllib.request.HTTPCookieProcessor(csdnCookie) opener = urllib.request.build_opener(csdnHandler) response = opener.open(login_csdn) for item in csdnCookie: print("name = " + item.name) print("value = " + item.value) id = 'xxxxxxx' # 你的用户名 password = 'xxxxxxxx' # 你的密码 soup = BeautifulSoup(response.read(),'lxml') # 获取登入页面的input标签中lt的值,后面post表单上传登入信息需要 lt = soup.select('input[name="lt"]')[0]['value'] # 获取登入页面的input标签中execution的值,后面post表单上传登入信息需要 execution = soup.select('input[name="execution"]')[0]['value'] #csdn登录 需要流水号 postDict = { 'username': id, 'password': password, "lt": lt, "execution": execution, "_eventId": "submit" } setHeader(header, opener) postData = urllib.parse.urlencode(postDict).encode() op = opener.open(login_csdn, postData) #登陆后我们随意跳转到博客 url = "https://blog.csdn.net/zzw5945/article/details/80955268" result = opener.open(url) data = result.read() data = ungzip(data).decode(encoding='utf-8', errors='strict') #print(data) |
1 2 3 4 5 6 7 8 9 10 11 12 13 |
D:\python\python.exe E:/技术学习/Python代码/12.升级版本的csdn登录/login_csdn.py name = dc_session_id value = 10_1531294283082.145267 name = uuid_tt_dd value = 10_19718492940-1531294283082-667960 name = JSESSIONID value = FD4B0AD3DD4BA74FEC1ADAD15BBDD130.tomcat2 name = LSSC value = LSSC-220102-ieGz5x1BhHkmR4EHKJrpeyjNXAzLlN-passport.csdn.net 正在解压..... 解压完毕! 进程已结束,退出代码0 |
4.本篇小结
本篇博文,总结了cookie的基本用法,同时介绍了opener类。下一篇博文将为大家介绍http响应码的错误类型。为大家介绍HTTPError这个类,同时和大家一起学习如何处理这类错误。
转载请注明:燕骏博客 » Python3.6爬虫入门自学教程之七:cookies的使用及基本说明
赞赏作者微信赞赏支付宝赞赏