其他分享
首页 > 其他分享> > 爬虫操作

爬虫操作

作者:互联网

昨日内容回顾

今日内容概要

今日内容详细

bs4模块补充

# CSS选择器
1.如果想通过id查找标签
	#d1		>>>		id='d1'
2.如果想通过class查找标签
	.c1	    >>>      class='c1'
3.查看标签内部的标签(标签可以相互嵌套)
	<div>
    	<p>
        	<a></a>
        </p>
        <a></a>
    </div>
    查找div标签里面所有的后代a标签
    	div a  # 空格表示后代
    查看div标签里面儿子a标签
    	div>a  # >表示儿子

requsets-html模块

1.该模块支持执行js代码,requests模块是不支持的
2.操作更加简单方便
3.与requests模块是同一个作者

下载 
	pip3 install requests-html
基本使用
	>>> from requests_html import session
    # 返回一个Response对象
    >>> r = session.get('https://python.org/')
    # 获取所有链接
    >>> r.html.links
    {'/users/membership/', '/about/gettingstarted/'}
    # 使用css选择器的方式获取某个元素
    >>> about = r.html.find('#about')[0]
    >>> print(about.text)
    About
    Applications
    Quotes
    Getting Started
    Help
    Python Brochure

爬去链家二手房数据

"""
1.在写爬虫程序的时候我们一定要有一个找寻规律的想法
    地区规律
        https://sh.lianjia.com/ershoufang/
        https://bj.lianjia.com/ershoufang/
        https://sz.lianjia.com/ershoufang/
    分页规律
    	https://sh.lianjia.com/ershoufang/
    	https://sh.lianjia.com/ershoufang/pg2/
    	https://sh.lianjia.com/ershoufang/pg3/
    	...
    	https://sh.lianjia.com/ershoufang/pgN/
2.在查找标签的时候我们有两种思路
	1.直接点名道姓的查找具体的标签
		链家网
	2.先获取标签所在的父标签之后再分析
		汽车之家
"""
针对后续我们会学习到的内容pandas模块,如果你想提前使用需要下载两个模块
pip3 install pandas
pip3 install openpyxl

# 代码不要频繁的执行 最好加上人为的延迟
import time
time.sleep(3)

作业

1.自我完成红牛分公司数据爬取
2.完成链家二手房数据爬取(单页)

标签:https,标签,ershoufang,爬虫,json,模块,操作,lianjia
来源: https://www.cnblogs.com/kailun-aixuexi/p/14297270.html