Python爬虫学习(1)
作者:互联网
为了完成毕业设计,从Python零基础开始学习爬虫技术。
1.Requests库
功能:用于网页请求
网页请求方式:GET方法(常用)与POST方法
使用GET方式抓取网页源码数据:
import requests #导入requests包
url = 'http://www.baidu.com/' #将目标网页赋值给一个变量
strhtml = requests.get(url) #调用requests库的Get方法获取网页数据,并将其赋值给变量
print(strhtml.text) #打印网页的文本数据
2.BeautifulSoup库
功能:从网页中抓取数据
常见方法:BeautifulSoup()、soup.select()、soup.prettify()等
简单示例:
import requests #导入requests包
from bs4 import BeautifulSoup #导入bs4中的BeautifulSoup包
url='http://www.baidu.com/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml') #指定lxml解析器进行解析
print(soup) #打印结果
2.1 BeautifulSoup()——解析文档
Beautiful Soup 选择最合适的解析器来解析文档,解析后便将复杂的 HTML 文档转换成树形结构,并且每个节点都是 Python 对象。
soup=BeautifulSoup(strhtml.text,'lxml')
此处指定 lxml 解析器进行解析,将解析后的文档存储到新建的变量 soup 中。
标签:网页,strhtml,Python,爬虫,BeautifulSoup,学习,soup,requests,解析 来源: https://blog.csdn.net/weixin_43363720/article/details/112794496