Python 爬虫库 urllib 使用详解.docx
《Python 爬虫库 urllib 使用详解.docx》由会员分享,可在线阅读,更多相关《Python 爬虫库 urllib 使用详解.docx(19页珍藏版)》请在优知文库上搜索。
1、Python爬虫库urllib使用详解一、Pythonurllib库Pythonurllib库用于操作网页URL,并对网页的内容进行抓取处理。Python3的urllibourllib包包含以下几个模块:urllib.request-打开和读取URLo urllib.error-包含UrIlib.request抛出的异常。 urllib.parse-解析URLo urllib.robotparser-解析robots.txt文件。需要用的就是每个模块的内置方法和函数。大概方法如下图:readOdecodeOgeturlQinfoOgetcodeOerror.URLErrorOreasonrea
2、soncodeheaderseror.ContetToSho11ErrorOrobotparser.RobotFiIeParserQset_url(urreadOsite_map二、UrHib.request模块urllib.request定义了一些打开URL的函数和类,包含授权验证、重定向、浏览器Ce)OkieS等。urllib.request可以模拟浏览器的一个请求发起过程。这里主要介绍两个常用方法,urlopen和Requesto1. urlopen函数语法格式如下:urllib.request.urlopen(url,data=None,timeout,*lCafiIe=None,ca
3、path=None,CadefauIt=FaIse,Context=None)url:url地址。data:发送到服务器的其他数据对象,默认为None0timeout:设置访问超时时间。cafile和capath:cafile为CA证书,capath为CA证书的路径,使用HTTPS需要用到。cadefault:已经被弃用。context:SSLSSLCOnteXt类型,用来指定SSL设置。示例:importurllibrequest#导入UHlibreques七模块UrI=UrIIib-requestarlopen(h七七ps:/wwwbaiducomu)#打开读取baidu信息print(u
4、r!read()-decode(lutf-8,)#获取所有信息,并decode。命令将网页的信息进行解码运行结果:getheadergetheadersfileno等方法,以及msgversionstatusreasondebuglevekclosed等属性。常用方法:read():是读取整个网页内容,也可以指定读取的长度,如read(300)o获取到的是二进制的乱码,所以需要用到decode。命令将网页的信息进行解码。 readline()-读取文件的一行内容。 readlines()-读取文件的全部内容,它会把读取的内容赋值给一个列表变量。 info():返回HTTPMeSSage对象,表
5、示远程服务器返回的头信息。 getcode():返回HttP状态码。如果是http请求,200请求成功完成;404网址未找到。 geturl():返回请求的UrI。2、Request类我们抓取网页一般需要对headers(网页头信息)进行模拟,否则网页很容易判定程序为爬虫,从而禁止访问。这时候需要使用到urllib.request.Request类:classurllib.request.Request(url,data=Noe,headers=,origin_req_host=None,UnverifiabIe=FaIse,method=None) url:url地址。data:发送到服务器
6、的其他数据对象,默认为None0headers:HTTP请求的头部信息,字典格式。origin_req_host:请求的主机地址,IP或域名。unverifiable:很少用整个参数,用于设置网页是否需要验证,默认是False0。method:请求方法,如GET、POST、DELETE.PUT等。示例:importurllibrequest#导入模块url=卜七七awwwbaidaCom”#网页连接headers=“UseLAgent:用。ZJlIa50(WindowsNT100;UJin64;x64)APPIeuJebKi七53736(KHTHJHkeGeCkO)Chrome/8003987
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 爬虫库 urllib 使用详解 爬虫 使用 详解
