其他分享
首页 > 其他分享> > 爬虫疑问百解

爬虫疑问百解

作者:互联网

爬虫简介

什么是爬虫:
    - 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

http协议
    - 概念:就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
    - User-Agent:请求载体的身份标识
    - Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息
    - Content-Type:服务器响应回客户端的数据类型

https协议:
    - 安全的超文本传输协议

加密方式
    - 对称秘钥加密
    - 非对称秘钥加密
    - 证书秘钥加密

爬虫在使用场景中的分类
    - 通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据。
    - 聚焦爬虫:
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
    - 增量式爬虫:
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

requests模块基础

操作流程

举个例子:

import requests


def get_sogou():
    #step1 指定URL
    url = 'https://www.sogou.com/'
    #step2 发起请求
    response = requests.get(url=url)
    #step3 获取响应数据,txt返回的是字符串形式的响应数据
    page_txt = response.text
    print(page_txt)
    #step4 持久化存储
    with open('./sogou.html','w',encoding='utf-8') as f:
        f.write(page_txt)
    print('爬虫结束-----')



if  __name__ == '__main__':
    get_sogou()

 requests模块参数都有啥?

Python 提供了 requests 模块用来处理网页的 url,主要有 get() 和 post() 两个方法,分别对应网页的 Get 请求和 Post 请求。get() 和 post() 方法有以下几个参数:

 

咱一般都用的json这个是个啥?

 dumps 方法 Python 数据结构转换为 JSON:

 loads 方法

可以将一个 JSON 编码的字符串转换回一个 Python 数据结构,并取指定的值:

 

将字典写入 JSON 文件 、

data.json 是需要保存的文件名名字,dump是用来写入储存数据的,注意区分的是dumps

是将  dumps 方法 Python 数据结构转换为 JSON

 读取文件中的 JSON 数据

 

 因为把json文件弄成的是json类型的当成f所以下载的时候(也就是解析成python数据类型的时候)传入f,也就是变成字典形式        

 

标签:请求,get,字典,指定,爬虫,JSON,百解,疑问
来源: https://blog.csdn.net/weixin_51130521/article/details/122520352