编程语言
首页 > 编程语言> > Python爬虫精进-第0关 文章下载

Python爬虫精进-第0关 文章下载

作者:互联网

Python爬虫精进-第0关 文章下载

练习介绍

要求:

获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。

文章链接地址:

https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise
/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md

目的:

练习获取网上的文本文件。

题目注意点

第一次编译运行的时候报了如下错误,CSDN过后,在评论区发现了解决问题的方法:开了代理才会导致报如下错误,关闭代理即可。

ValueError: check_hostname requires server_hostname

在此附上CSDN博文链接:

传送门

python参考代码

'''
Author: Gu Jiakai
Date: 2021-07-11 14:45:27
LastEditTime: 2021-07-11 15:03:38
LastEditors: Gu Jiakai
Description: 
FilePath: \第0关-初识爬虫\习题再练-文章下载.py
'''
import requests#引入requests库。

#文章链接。
url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md'
# requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,
# 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
# 把响应返回的结果赋值给变量res。
res=requests.get(url1)
#打印状态码,检查请求是否成功。
print(res.status_code)
# 把response对象转换为字符串数据。
content=res.text
# Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
print(content.strip())

补充

获取到数据后,存储数据。【存储文件的三个步骤:打开文件,存储文件,关闭文件。】

'''
Author: Gu Jiakai
Date: 2021-07-11 14:45:27
LastEditTime: 2021-07-11 15:27:16
LastEditors: Gu Jiakai
Description: 
FilePath: \第0关-初识爬虫\习题再练-文章下载.py
'''
import requests#引入requests库。

#文章链接。
url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md'
# requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,
# 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
# 把响应返回的结果赋值给变量res。
res=requests.get(url1)
#打印状态码,检查请求是否成功。
print(res.status_code)
# 把response对象转换为字符串数据。
content=res.text
# Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
print(content.strip())
# with open('文件地址','读写模式','编码方式') as 变量名:
with open('http状态响应码','a+',encoding='utf-8') as file:
    file.write(content)
    #无需用close()函数关闭文件。

注:
在这里插入图片描述

网页的编码方式为‘utf-8’,因此我们写入特定编码的文本文件要给open()函数传入encoding参数,将字符串自动转换为指定编码方式编码。

image-20210711160241485

参考资料

Python strip()方法

Python3中打开文件的方式(With open)

标签:精进,get,Python,res,爬虫,E7%,content,E5%,requests
来源: https://blog.csdn.net/qq_46139801/article/details/118655567