首页 > 编程语言> > Python爬虫学习（1）

Python爬虫学习（1）

2021-01-28 21:01:35 作者：互联网

为了完成毕业设计，从Python零基础开始学习爬虫技术。

1.Requests库

功能：用于网页请求
网页请求方式：GET方法（常用）与POST方法

使用GET方式抓取网页源码数据：

import requests        				#导入requests包
url = 'http://www.baidu.com/'		#将目标网页赋值给一个变量
strhtml = requests.get(url)        	#调用requests库的Get方法获取网页数据，并将其赋值给变量
print(strhtml.text)					#打印网页的文本数据

2.BeautifulSoup库

功能：从网页中抓取数据
常见方法：BeautifulSoup()、soup.select()、soup.prettify()等

简单示例：

import requests        							#导入requests包
from bs4 import    BeautifulSoup				#导入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器进行解析
print(soup)										#打印结果

2.1 BeautifulSoup()——解析文档

Beautiful Soup 选择最合适的解析器来解析文档，解析后便将复杂的 HTML 文档转换成树形结构，并且每个节点都是 Python 对象。

soup=BeautifulSoup(strhtml.text,'lxml')

此处指定 lxml 解析器进行解析，将解析后的文档存储到新建的变量 soup 中。

标签：网页,strhtml,Python,爬虫,BeautifulSoup,学习,soup,requests,解析
来源： https://blog.csdn.net/weixin_43363720/article/details/112794496