其他分享
首页 > 其他分享> > WebMagic爬虫框架简单使用

WebMagic爬虫框架简单使用

作者:互联网

背景:
纯属自我爱好和学习,目前只是简单使用,在日常工作中并没有实际应用场景。

官网地址: 点我去WebMagic官网
官方文档地址:点我去官方文档

直接上代码:


import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.io.FileNotFoundException;
import java.io.IOException;
import java.util.List;

/**
 * @author javaboy
 * @version 1.0
 * @data 2021/1/19  9:37 PM
 * @description 爬虫demo
 * @url
 */
public class GetPhoto implements PageProcessor {

    /**
     * 设置参数
     */
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(3000);

    /**
     * 主方法启动爬虫
     */
    public static void main(String[] args) {

        // 这里只爬取第一页的壁纸,如果要爬取其他页数修改for循环参数即可
        for (int i = 10; i <= 11; i++) {
            // 启动爬虫
            Spider.create(new GetPhoto())
                    // 添加初始化的URL
                    .addUrl("https://wallhaven.cc/toplist?page=" + i)
                    // 使用单线程
                    .thread(1)
                    // 运行
                    .run();
        }
    }

    /**
     * 页面处理逻辑
     * 也就是访问主程序中的URL后得到的页面
     * <p>
     * 爬虫思路:
     * 1. 主程序访问URL后得到页面
     * 2. 将得到的页面解析出需要的参数,并将解析出来并且需要爬取的链接放入爬取目标中 (45-59行)
     * TIPS:WebMagic会自动去识别哪些连接爬取过哪些没有。
     * 3. 访问第二步中放入的链接得到页面,并解析(62行)
     * 4. 将图片的名字和后缀提取出来以便保存(64-77行)
     */
    @Override
    public void process(Page page) {
        // 一页是24张图片
        for (int i = 1; i <= 24; i++) {
            // 使用Xpath解析,获取到单个图片的网页
            // WebMagic支持使用Xpath、CSS选择器、正则表达式、JsonPath来解析页面
            String str = page.getHtml().xpath("//div[@id=thumbs]/section/ul/li[" + i + "]/figure//img/@data-src").toString();

            // 获取到的连接为null则退出循环,不添加进爬取目标
            if (str == null) {
                break;
            }
            // 将爬取到的链接添加到待爬取页面中
            page.addTargetRequest(str);
        }
        // 将页面中图片的地址提取出来,以便于使用工具类保存
        List<Request> targetRequests = page.getTargetRequests();
        for (int i = 0; i < targetRequests.size(); i++) {
            String pageURL = targetRequests.get(i).getUrl();
            if (pageURL != null) {
                try {
                    // 获取图片的名字和后缀提取出来用于保存
                    String name = pageURL.substring(pageURL.length() - 10, pageURL.length() - 4);
                    String suffix = pageURL.substring(pageURL.length() - 4);

                    // 将图片的地址、名字、保存路径传入文件工具类进行下载
                    DownloadImage.downLoadFromUrl(pageURL, name + suffix, "src/file/");
                } catch (FileNotFoundException e) {
                    e.printStackTrace();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }

    @Override
    public Site getSite() {
        return site;
    }
}

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;

/**
 * @author javaboy
 * @version 1.0
 * @data 2021/1/19  9:39 PM
 * @description 下载器
 * @url
 */
public class DownloadImage {
    public static void downLoadFromUrl(String urlStr, String fileName, String savePath) throws IOException {
        URL url = new URL(urlStr);
        HttpURLConnection conn = (HttpURLConnection) url.openConnection();
        // 设置超时间为3秒
        conn.setConnectTimeout(3 * 1000);

        // 防止屏蔽程序抓取而返回403错误
        conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

        // 得到输入流
        InputStream inputStream = conn.getInputStream();

        // 获取自己数组
        byte[] getData = readInputStream(inputStream);

        // 文件保存位置
        File saveDir = new File(savePath);
        if (!saveDir.exists()) {
            saveDir.mkdir();
        }

        File file = new File(saveDir + File.separator + fileName);
        FileOutputStream fos = new FileOutputStream(file);
        fos.write(getData);
        if (fos != null) {
            fos.close();
        }

        if (inputStream != null) {
            inputStream.close();
        }

        System.out.println("info:" + url + " download success");

    }

    private static byte[] readInputStream(InputStream inputStream) throws IOException {
        byte[] buffer = new byte[1024];
        int len = 0;
        ByteArrayOutputStream bos = new ByteArrayOutputStream();
        while ((len = inputStream.read(buffer)) != -1) {
            bos.write(buffer, 0, len);
        }
        bos.close();
        return bos.toByteArray();
    }
}

直接运行main方法,就可以看到结果了。

标签:String,框架,URL,爬虫,pageURL,new,import,页面,WebMagic
来源: https://blog.csdn.net/xj80231314/article/details/113259091