编程语言
首页 > 编程语言> > 用python爬取xkcd.com上的有趣漫画图片

用python爬取xkcd.com上的有趣漫画图片

作者:互联网

       

        这是自学前端的第二天。

        在学《Automate The Boring Stuff With Python》的web开发部分时发现自己对于HTML、CSS等前端标记语言一无所知,于是前两天在B站上开始自学前端基础。下面这个项目是基于书上的项目12.7,我看到这个项目名称时,第一想法就是利用这两天所学习到的前端知识自己先写一个版本,然而在写的过程中,还是往前查阅了许多函数的用法(有的实在记不住了╯︿╰)。

# _*_ coding utf-8 _*_
# designer: はな
# time: 2021/7/19 18:01
# name: comic_download.py


"""项目:从xkcd.com上下载一些有趣的漫画图片"""


import requests, bs4, re


page_num = input("请问需要下载哪些漫画?(输入格式:1-10)")
foldername = input("请输入需要下载到的文件夹名称\n(将在桌面创建,默认为XKCD_COMIC,如采用默认值请直接输入回车):")

re_page = re.compile('(\d+)-(\d+)')
first_page = int(re_page.search(page_num).group(1))
last_page = int(re_page.search(page_num).group(2))

if foldername != '':
    foldername = 'C:\\User\\DELL\\Desktop\\' + foldername
else:
    foldername = 'C:\\Users\\DEll\\Desktop\\XKCD_COMIC'

firstpage_url = 'https://xkcd.com/1/'
nextpage_url = firstpage_url

for page in range(1, last_page + 1):

    print(f"正在检索第{page}页")

    #取得当前页面的Response
    xkcd_html = requests.get(nextpage_url)
    xkcdSoup = bs4.BeautifulSoup(xkcd_html.text, 'html.parser')

    #获取下一页的网址
    nextpage = xkcdSoup.select('a[rel="next"]')
    if nextpage[0].get('href') != '#':
        nextpage_url = r'http://xkcd.com' + nextpage[0].get('href')
    else:
        page = last_page + 1

    if page >= first_page:

        #取得当前页面图片的名称
        picture_name = str(xkcdSoup.select('#ctitle')[0].getText())

        #获取图片的网址
        img_url = "https:" + xkcdSoup.select('#comic img')[0].get('src')
        picture = requests.get(img_url)
        with open(foldername + f"\\{picture_name}.jpg", 'wb') as picture_file:
            for data in picture.iter_content(100000):
                picture_file.write(data)
            print(f"图片{picture_name}下载成功!")

    else:
        continue
        
    if page == last_page + 1:
        print("已经到达最后一页")

这里面一个很关键的地方在于,创建.jpg文件时,要以二进制写入方式('wb')创建文件,再用Response对象的.iter_content()方法进行二进制数据的写入,这样才不会发生异常。

这是在浏览器中查找标签时的截图(虽然对BeautifulSoup对象的CSS选择器设置还不是很熟):

         

下面是爬取的效果图:

 学会了这个项目,以后就可以轻松爬取想看的漫画啦!

标签:picture,python,foldername,爬取,url,漫画图片,xkcd,page,nextpage
来源: https://blog.csdn.net/NanamiKento/article/details/118916650