其他分享
首页 > 其他分享> > requests 爬虫基础

requests 爬虫基础

作者:互联网

import requests
#导入 requests 包
先看请求的方法是什么,比如 get,proct
然后有些内容是通过异步加载的,所有我们要找到异步加载的文件 ,异步加载:执行过程同时加载
查找的方法是 ,检查,找到网络 ,点XHR 就可以看到异步数据,,请求标头有 X-Requested-With: XMLHttpRequest,要用post的里面的headers 一起发出去
'''
# 添加的请求头 #为什么要模拟浏览器的请求 # 防止网站以为这个是爬虫不给网站内容 hreas={ "Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70" #这是edge的用户代理 } zxc={"Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"} #谷歌用户代理 url='https://www.baidu.com/' requests_gt=requests.get(url,headers=hreas) # get请求 'print(requests_gt)' 'print(requests_gt.url)' #查看我要请求的网站 #psot 请求 'nij=requests.post(url)' 'post请求' 'print(nij)' '----------get----' # 返回 http 的状态码 print(requests_gt.status_code) # 返回编码 print(requests_gt.apparent_encoding) # 是否ok响应状态的描述 print(requests_gt.reason) # 返回网页内容 # print(requests_gt.text) # 编码的意思 requests_gt.encoding='utf-8' #响应头 print(requests_gt.headers) # print(requests_gt.content) #获取到的是网页的内容 print(requests_gt.text)

  

import requests
#导入 requests 包



# 添加的请求头
#为什么要模拟浏览器的请求
# 防止网站以为这个是爬虫不给网站内容
hreas={
    "Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70"
     #这是edge的用户代理
}

zxc={"Uaer_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}
#谷歌用户代理


url='https://www.baidu.com/'
requests_gt=requests.get(url,headers=hreas)

# get请求
'print(requests_gt)'
'print(requests_gt.url)'
#查看我要请求的网站

#psot 请求
'nij=requests.post(url)'
'post请求'
'print(nij)'

'----------get----'
# 返回 http 的状态码
print(requests_gt.status_code)
# 返回编码
print(requests_gt.apparent_encoding)
# 是否ok响应状态的描述
print(requests_gt.reason)

# 返回网页内容
# print(requests_gt.text)

# 编码的意思
requests_gt.encoding='utf-8'
#响应头
print(requests_gt.headers)

# print(requests_gt.content)
#获取到的是网页的内容
print(requests_gt.text)

 

标签:gt,请求,url,基础,爬虫,537.36,print,requests
来源: https://www.cnblogs.com/xxh12/p/16673873.html