Python获取网页指定内容bs4模块.docx
《Python获取网页指定内容bs4模块.docx》由会员分享,可在线阅读,更多相关《Python获取网页指定内容bs4模块.docx(5页珍藏版)》请在优知文库上搜索。
1、Python获取网页指定内容bs4模块Pymon用仪数据处理还是加节不堵的,如果你想娶做相虫,Py1.hOn是很好的选择.它有很学已经?好的炎包,只要调用,即可完成跟多发杂的功能在我们开始之前我们需要安装些环境依核包.打开命令行丽保电胸中具方PyIhOn和pip,如果没有的话则许要门行进行安装之场我们可使用pip安装必备模块requestspipinsta1.1.requestsrequestsPyIhOn实现的简顼易用的HTTP昨.使用起来比ur1.1.ib徜油很多.requests允许你发送HTTP.1.1请求.指定UR1.并添加爽询Ur1.字符上即可开始叱取因灾信息1.抓取网页源代码以该
2、平行为例.抓取脚页中的公司名称数据,网页链接:https:/WWW.crrcgo.CCJadmirVcrr_supp1.ier.h1.m1.?Page-I目标网页源代码如下t首先明碉步骤1 .打开目标站点2 .抓取I1.除站点代码并输出Iwportrequests导入我们需要的requests功能模块pEcrcquost5.gc*t(https.crrcgo.ccZdnincrr_5upp1.icr.htn1.?pagc-1.)这句命令的感思就是使用get方式获取该神页的数据,实际上我做生取到的就是浏览器打开h度M址时候行页iai面的数据信息rint(pdge.text)这句是把我们援取数据的
3、文字text内容饰出刖的出来i11portrequestspage=requests.get(,htt(srw.crrcgo.cc3(M)incrr-su1.ier.tr1.pge=1.)print(page.text)成功爬取到了U标网页源代利2.抓取一个网页源代码中的某!示签内容做足上面抓取到的代阳充满尖括号的片字符,对我们没行什么作川,这怦的充满尖拈号的数抠就是我们从IK务器收到的网页文件,就像Office的doc.PPtx文件格式一样,网页文件般是htm1.格式.我们的浏览器可以把这些htm1.代码数据展示成我们看到的网页.我们如果需要这些字符里二而提取有价值的数犯,就必为先了解标记元
4、素每个标记的文字内容都是夹在两个尖括号中间的.结尾尖括号用/开头,尖括号内(imgfudw)我示标记兀素的类型(图片或文字,尖括号内可以有其他的属性(比如src开始标记A标记属性标记内容结尾标记(*t*jhdivid=,biaoti1.dass=daz”十分钟上手数据鹿虫I,V,Y)Iid属性CIaSS属性CSDN创*r1Sday标记名标记内容文字才是我们需要的数据但我们要利用id或c1.assm件才能从众多标记中找到需要的标记元素.我们可以在电脑浏览器中打开任意网页.按下(12谯即可打开元素杳青器(E1.ementS),就可以看到组成这个页面的成百上千个各种各样的标记元素标尼元点是可以一层一
5、层嵌套的,比如下而就是body嵌套了div元建,body是父层、I:层元素;dv足子层、下层元素.,MIFvi?1.,.回到抓取上面求.现在我只想在网页中版取公司8这个数据.其也的我不忍爱查看网页htm1.代码.发现公司名在标口de1.ai1._head里面divC1.aSS1.detaiIJeadBP理工全字机械电器股份有限公司=叼anInportrequestsreq三requests.get(,httpszw.crrc.ccadnincrr-supp1.ier.htm1.page=1.)这两行上面解杼过了,足获取页面数据fronbs4InportQeautifu1.Soup我们需娶使用B



- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 获取 网页 指定 内容 bs4 模块
