【网络爬虫实战】PySpider框架基本使用及抓取TripAdvisor
作者:互联网
启动 pyspider 时 Could not create web server listening on port 25555 报错
输入netstat -atunlp 命令,来显示路由表、实际的网络连接以及每一个网络接口设备的状态信息
找到phantomjs 进程,原来phantomjs 在后台已经启动
终端键入
kill -s 9 进程号
pyspider all 运行pyspider。 出现下图,新建项目demo
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-08-20 20:02:43
# Project: TripAdvisor
from pyspider.libs.base_handler import *
class Handler(BaseHandler):
crawl_config = {
}
@every(minutes=24 * 60)
def on_start(self):
self.crawl('https://www.tripadvisor.cn/Attractions-g186338-Activities-London_England.html', callback=self.index_page)
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
# 带http的链接
for each in response.doc('a[href^="http"]').items():
self.crawl(each.attr.href, callback=self.detail_page)
@config(priority=2)
# 通过点击左边的->获取页面信息细节(包括url和title)
def detail_page(self, response):
return {
"url": response.url,
"title": response.doc('title').text(),
}
标签:TripAdvisor,title,self,爬虫,page,60,PySpider,pyspider,response 来源: https://blog.51cto.com/u_13696685/3018276