爬虫基础(未整理)
作者:互联网
get 模式下
用到urllib模块
form urllib import request,parse
URL=“http;//www.baidu.com/s?”
wd= input("input your keyword")
qs={“wd”:wd}
qs = parse.urllencode(qs) # 第一、給输入的lkeyword从中文编码成能识别的str模式
rsp = urllib.request.urlopen(URL) #第二、打开网页
html = rsp.read() #第三,读取html 数据
new_html = html.decode() #第四,解码读取的数据,括号里面选填解码类型,如utf-8
print(new_html) #最后打印html{
【注意】前提步骤,有url,用户输入的keyword并且以dict模式贮存,再对keyword进行编码。
开始步骤 :打开网页(urlopen(url)),
读取数据(read())
数据解码(decode())
打印数据
post模式下
用到urllib模块,josn
form urllib import request,parse
import json
url=“http://fanyi.baidu.com/sug”
wd= input("input your keyword")
qs={“wd”:wd}
qs = parse.urllencode(qs).encode(utf-8) #以utf-8的模式进行编码,结果是srt变成bytes类型
rsp = reques.urlopen(url,data=qs) #打开网站,data是刚刚输入转换的编码数据
json_data =rsp.read.().dacode("utf-8") #读取数据和解码数据
json_data = json.loads(json_data) #,把json字符串转换成字典,数据是json格式的str模式,读取不了,将str变成dict格式就可以读取
for i,b in json_data["data"] #遍历输出字典内容
print(i,b)
【注意】
get、post差别在于,get只要在url后面加入转码后的内容既可以跳转到需要的页面
post,不存在get直接在url后面加入内容,而是加入一个data = keyword的 转码后数据跳转页面,并且通过utf-8解码后内容是json的字符串格式,要变成dict模式才能得到数据。
post2。
urlopen提供能力不足
模拟http信息,模范浏览器能力不足
为了更多的设置请求信息,单纯通过urlopen不好用
-利用request.Request类
orm urllib import request,parse
import json
url=“http://fanyi.baidu.com/sug”
wd= input("input your keyword")
qs={“wd”:wd}
qs = parse.urllencode(qs).encode(utf-8)
headers = {“Content,Length”:len(qs)}
rq = request.Request(url=url,data=qs,headers=headers) #构造一个个Request的类,参数url,data,headers,
rsp = reques.urlopen(rq)
json_data =rsp.read.().dacode("utf-8")
json_data = json.loads(json_data)
for i,b in json_data["data"]
ERROR
URLError
-没网络
-服务器链接失败
是OSError的子类
import urllib import erquese ,error
url="http://www.baiiiiiidu.com"
try:
req =request.Request(url)
rsp = request.urlopen(req)
html = rsp.read().decode()
except error.URLError as e :
print(e)
except Exception as e :
print(e)
HTTPError,
是URLError的子类
url="http://www.vnetbfmnqmvu.com"
try:
req =request.Request(url)
rsp = request.urlopen(req)
html = rsp.read().decode()
except error HTTPError as e :
print(e)
except error.URLError as e :
print(e)
except Exception as e :
print(e)
【两者区别】HTTPError、:返回错误码400以上,引发httperror
URLError:一般网络出问题
关系父-子:oserror、urlerror、httperror
UserAgent:身份隐藏,简称UA,属于headers的 一部分,服务器通过UA识别是否爬虫
常见的UA值
F12.NETWORD.查看UA
url=“http:www.baidu.com”
form urllib import request ,error
try:
headers={}
headers["User-Agent"]=UAxxxxxxxxx # User-Agen不能拼错
req = request.Request(url,headers = headers)
html = req.read().decode()
pinnt(html)
标签:qs,url,request,基础,爬虫,json,rsp,未整理,data 来源: https://www.cnblogs.com/simplecat/p/11389427.html