其他分享
首页 > 其他分享> > 爬虫

爬虫

作者:互联网

爬虫: 什么是爬虫: 爬虫就是写一个程序,从互联网上抓取数据的过程 Url模块: 1:urlretrieve(url,filename):urlretrieve()模块有两个参数,url = 要爬取的网址 filename = 本地的目录(本地的存储地址) 2:urlcleanup() :将urlretrieve()产生的缓存清除 3:info():将一些基本的环境展现出来(urllib.request.urlopen(url)) 此时调用info()可展现当前的环境 4:getcode(),geturl():返回当前网页的状态码,getcode显示当前的状态码,200表示网页正常 403表示网页有错 5:超时设置:由于网速和对方服务器的问题,爬取网页时。都需要时间, 有时间该网页长时间未响应,就判断为超时。file = urllib.request.urlopen('url',timeout = ?)  

标签:网页,url,request,爬虫,urllib,urlretrieve
来源: https://www.cnblogs.com/zxzx1/p/10902979.html