所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。
成都创新互联服务项目包括潍坊网站建设、潍坊网站制作、潍坊网页制作以及潍坊网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,潍坊网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到潍坊省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!urllib2是Python2.x自带的模块(不需要下载,导入即可使用)
urllib2官网文档:https://docs.python.org/2/library/urllib2.html
urllib2源码
urllib2在python3.x中被改为urllib.request
urlopen
我们先来段代码:
#-*- coding:utf-8 -*- #01.urllib2_urlopen.py #导入urllib2库 import urllib2 #向指定的url发送请求,并返回服务器的类文件对象 response = urllib2.urlopen("http://www.baidu.com") #类文件对象支持文件对象的操作方法,如read()方法读取文件 html = response.read() #打印字符串 print(html)
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。