其他分享
首页 > 其他分享> > 【网络爬虫实战】PySpider框架基本使用及抓取TripAdvisor

【网络爬虫实战】PySpider框架基本使用及抓取TripAdvisor

作者:互联网

 

启动 pyspider 时 Could not create web server listening on port 25555 报错

输入netstat -atunlp 命令,来显示路由表、实际的网络连接以及每一个网络接口设备的状态信息

找到phantomjs 进程,原来phantomjs 在后台已经启动

终端键入 

kill -s 9 进程号

pyspider all 运行pyspider。 出现下图,新建项目demo

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-08-20 20:02:43
# Project: TripAdvisor

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://www.tripadvisor.cn/Attractions-g186338-Activities-London_England.html', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        # 带http的链接
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    # 通过点击左边的->获取页面信息细节(包括url和title)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

 

标签:TripAdvisor,title,self,爬虫,page,60,PySpider,pyspider,response
来源: https://blog.51cto.com/u_13696685/3018276