首页 > 编程语言> > 用Python爬取某蔬菜网的行情，分析底哪个地区的蔬菜便宜

用Python爬取某蔬菜网的行情，分析底哪个地区的蔬菜便宜

2020-08-24 22:32:58 作者：互联网

前言

夏季到来，合理饮食很关键。夏季的饮食讲究清淡，多吃蔬菜有利于养生。那么哪个地区的蔬菜批发价格要便宜一些呢?让我们用Python爬取某蔬菜网的行情价格，来分析下，到底哪个地区的蔬菜，要更便宜一些。

分析页面

这是网页的页面

我们先看下第1/2/3页链接的联系：

http://www.vegnet.com.cn/Price/List_p1.html
http://www.vegnet.com.cn/Price/List_p2.html
http://www.vegnet.com.cn/Price/List_p3.html

通过页面可以看出只有P1/2/3的位置发生了变动，这样的话，我们可以构建一个循环来改变链接。因为一天行情价格的页面数达到了163页，为了防止不必要的麻烦，我们只抓取1天的，来分析下各地区蔬菜价格的差异。

我们要爬取的字段是：日期/品种/批发市场/最低价格/最高价格/平均价格/计量单位。

通过F12查看网页源代码可以看出我们要的字段都在span标签的class属性里面。

导入各种库

import requests as rq  
import xlsxwriter    
import  time         #设置休眠时间

编写代码

file_name = "蔬菜网.xlsx"
workbook = xlsxwriter.Workbook(file_name)
worksheet = workbook.add_worksheet("蔬菜网")
worksheet.write(0, 0, "日期")
worksheet.write(0, 1, "品种")
worksheet.write(0, 2, "市场")
worksheet.write(0, 3, "最低价")
worksheet.write(0, 4, "最低价")
worksheet.write(0, 5, "平均价")
worksheet.write(0, 6, "单位")
DD = 1
UU=1
while UU != 164:
    url = "http://www.vegnet.com.cn/Price/List_p" + str(UU) + ".html"
    H = rq.get(url)
    t = H.text
    for K in range(1,26):
 ......                  #为了避免不必要的麻烦，我们只展示一部分代码，中间的部分省略，有需要的同学可以联系我们。
        DD = DD + 1
    UU = UU + 1
    time.sleep(30)       #休眠时间为30秒
workbook.close()

分析数据