首页 > TAG信息列表 > Macy

爬取Macy网用户评价日志(1):需求存储数据库设计

一、数据库设计如图: mysql> show tables; +-------------------------------------+ | Tables_in_macy                      | +-------------------------------------+ | rank1_cate_urls                     | | rank2_cate_urls 

爬取Macy网用户评价日志(0): 项目介绍和需求分析,任务设计

1.  背景叙述; 因为本项目的目的是:爬取所有产品的价格、图片、标题、评论信息。 1) 打开macy网页面:macy网,一共要经过四层url链接能够到达具体产品信息页面。如图所示。   图1. Macy首页面   图2. Women下分类页面     图3. WomenàTops下分类页面     图4. WomenàTopsàp

爬取Macy网用户评价日志(4): 报错总结。

报错总结: 1.  stack overflow。     1) 描述:         在Tops下面的具体分类下,例如tops1, tops2, tops3等, 我使用了线程池的方法,开了10个线程去爬取每一个页面中的具体不同tops的url.其中因为会匹配next page.然后,应为next page使用了嵌套函数。get_html中套用了当发现next

爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行)

step0. main函数。           1)从mysql中抓取所有未请求的url; 创建url列表;           2)  依次向url发送info爬虫request.           3)  依次向url发送comment爬虫request. step1. mysql抽取;           1)查看rank3爬取的mysql数据,即具体产品页面url的数量

爬取Macy网用户评价日志(1): 爬取首页分类目录

1. Macy网域名:https://www.macys.com/。 经过selenium测试,Macy网对selenium作了反爬,selenium只能打开一级页面,如果继续进行下一级操作,则该网站拒绝进入下一级url。 2. 根据分析,首先要爬取第一页的分类:   3. 将爬取到的首页分类url存放到rank_1_url表中。     初次建立数据库各