Python爬虫精进-第0关 文章下载
作者:互联网
Python爬虫精进-第0关 文章下载
练习介绍
要求:
获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。
文章链接地址:
https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise
/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md
目的:
练习获取网上的文本文件。
题目注意点
第一次编译运行的时候报了如下错误,CSDN过后,在评论区发现了解决问题的方法:开了代理才会导致报如下错误,关闭代理即可。
ValueError: check_hostname requires server_hostname
在此附上CSDN博文链接:
python参考代码
'''
Author: Gu Jiakai
Date: 2021-07-11 14:45:27
LastEditTime: 2021-07-11 15:03:38
LastEditors: Gu Jiakai
Description:
FilePath: \第0关-初识爬虫\习题再练-文章下载.py
'''
import requests#引入requests库。
#文章链接。
url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md'
# requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,
# 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
# 把响应返回的结果赋值给变量res。
res=requests.get(url1)
#打印状态码,检查请求是否成功。
print(res.status_code)
# 把response对象转换为字符串数据。
content=res.text
# Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
print(content.strip())
补充
获取到数据后,存储数据。【存储文件的三个步骤:打开文件,存储文件,关闭文件。】
'''
Author: Gu Jiakai
Date: 2021-07-11 14:45:27
LastEditTime: 2021-07-11 15:27:16
LastEditors: Gu Jiakai
Description:
FilePath: \第0关-初识爬虫\习题再练-文章下载.py
'''
import requests#引入requests库。
#文章链接。
url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md'
# requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,
# 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
# 把响应返回的结果赋值给变量res。
res=requests.get(url1)
#打印状态码,检查请求是否成功。
print(res.status_code)
# 把response对象转换为字符串数据。
content=res.text
# Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
print(content.strip())
# with open('文件地址','读写模式','编码方式') as 变量名:
with open('http状态响应码','a+',encoding='utf-8') as file:
file.write(content)
#无需用close()函数关闭文件。
注:
网页的编码方式为‘utf-8’,因此我们写入特定编码的文本文件要给open()函数传入encoding参数,将字符串自动转换为指定编码方式编码。
参考资料
标签:精进,get,Python,res,爬虫,E7%,content,E5%,requests 来源: https://blog.csdn.net/qq_46139801/article/details/118655567