其他分享
首页 > 其他分享> > 2021-08-08,闲来无事,爬个图片网站。

2021-08-08,闲来无事,爬个图片网站。

作者:互联网

最近比较无聊,翻翻网页,发现了之前浏览过的网站,发现堆糖里的图片比较好玩,想下再把,发现比较多,而我本人又比较懒,所以呢,我就发挥我自己的能力,写个爬虫自己玩儿玩儿,下面是我自己写的内容。虽然有很多的不足,还望各位大佬多多指点一下,多多交流分享一下心得。。。
import requests
import jsonpath
import json



url = 'https://www.duitang.com/napi/blog/list/by_search/?kw=%E5%BE%AE%E4%BF%A1%E8%83%8C%E6%99%AF&start=72&_=1627228899032'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
}

def get_page(url, headers):
    resp = requests.get(url, headers=headers)
    page = resp.content.decode('utf-8')
    print(page)
    return page
    # print(page)

# 提取链接
def findall_url(page):
    html = json.loads(page)
    photos = jsonpath.jsonpath(html, '$..path')
    # print(photos)
    return photos

# 保存图片
def pic_download(url, n):
    r = requests.get(url)
    URL = r'C:\Users\Administrator\Desktop\duitang\%sb.jpg'%n
    with open(URL, 'wb') as f:
        f.write(r.content)




page = get_page(url, headers)
photos = findall_url(page)
n = 0
for i in photos:
    pic_download(i, n)
    print(i)
    n += 1

标签:headers,url,08,get,爬个,photos,2021,print,page
来源: https://blog.csdn.net/LoverSeve/article/details/119517971