其他分享
首页 > 其他分享> > 爬取偶像/私房小姐姐图片--爬虫基础篇

爬取偶像/私房小姐姐图片--爬虫基础篇

作者:互联网

1.废话不多说,直接上源码,有注释,相信你们能看到

"""
objective:爬取任意偶像/单词的百度图片(eg:佟丽娅、清纯小姐姐、蔡徐坤)
coding: UTF-8
time:2021/5/5
author:始终是个小白
"""

# 导入相关库
import re
import requests
import os


def dowmload(html, search_word, j):
    pic_url = re.findall('"objURL":"(.*?)",.*?"fromURL"', html, re.S)  # 利用正则表达式找每一个图片的网址
    # print(pic_url)

    n = j * 60
    for k in pic_url:
        print('正在下载第' + str(n+1) + '张图片,图片地址:' + str(k))
        try:
            pic = requests.get(k, timeout=20)
        except requests.exceptions.ConnectionError:
            print('当前图片无法下载')
            continue

        dir_path = r'D:\偶像图片\偶像' + search_word + '_' + str(n+1) + '.jpg'
        if not os.path.exists('D:\偶像图片'):
            os.makedirs('D:\偶像图片')
        fp = open(dir_path, 'wb')
        fp.write(pic.content)
        fp.close()
        n += 1


if __name__ == '__main__':
    name = input("输入你想要获取偶像的名称: ")
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'}
    page = 1  # 可以自定义,想获取几页就是几页,一页有60张图片,但是有的可能就很少,自己注意下
    for i in range(page):
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + name + '&pn=' + str(i * 20)  # 网址
        result = requests.get(url, headers=headers)  # 请求网址
        # print(result.content)  # 如果运行失败,一步一步找到原因,可以先看下网页输出的内容
        dowmload(result.content.decode('utf-8'), name, i)  # 保存图片
print("偶像图片下载完成")

2.输入偶像/其他关键词名称,结果如下

我输入了我的偶像韦德,他的一些图片就都下载了下来

当然,你也可以输入"清纯小姐姐私房照"这几个字,看下效果啦,你懂的。。。

再来一个例子吧,输入神"佟丽娅"三个字,结果如下:

标签:__,小姐姐,--,pic,偶像,爬取,url,print,图片
来源: https://blog.csdn.net/weixin_45109684/article/details/116428198