爬虫

2019-05-21 22:49:24 作者：互联网

爬虫：什么是爬虫：爬虫就是写一个程序，从互联网上抓取数据的过程 Url模块： 1:urlretrieve(url,filename):urlretrieve()模块有两个参数，url = 要爬取的网址 filename = 本地的目录(本地的存储地址) 2：urlcleanup() :将urlretrieve()产生的缓存清除 3：info():将一些基本的环境展现出来（urllib.request.urlopen(url)）此时调用info()可展现当前的环境 4:getcode()，geturl():返回当前网页的状态码，getcode显示当前的状态码，200表示网页正常 403表示网页有错 5:超时设置：由于网速和对方服务器的问题，爬取网页时。都需要时间, 有时间该网页长时间未响应，就判断为超时。file = urllib.request.urlopen('url',timeout = ?)

标签：网页,url,request,爬虫,urllib,urlretrieve
来源： https://www.cnblogs.com/zxzx1/p/10902979.html