首页 > TAG信息列表 > Macy
爬取Macy网用户评价日志(1):需求存储数据库设计
一、数据库设计如图: mysql> show tables; +-------------------------------------+ | Tables_in_macy | +-------------------------------------+ | rank1_cate_urls | | rank2_cate_urls爬取Macy网用户评价日志(0): 项目介绍和需求分析,任务设计
1. 背景叙述; 因为本项目的目的是:爬取所有产品的价格、图片、标题、评论信息。 1) 打开macy网页面:macy网,一共要经过四层url链接能够到达具体产品信息页面。如图所示。 图1. Macy首页面 图2. Women下分类页面 图3. WomenàTops下分类页面 图4. WomenàTopsàp爬取Macy网用户评价日志(4): 报错总结。
报错总结: 1. stack overflow。 1) 描述: 在Tops下面的具体分类下,例如tops1, tops2, tops3等, 我使用了线程池的方法,开了10个线程去爬取每一个页面中的具体不同tops的url.其中因为会匹配next page.然后,应为next page使用了嵌套函数。get_html中套用了当发现next爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行)
step0. main函数。 1)从mysql中抓取所有未请求的url; 创建url列表; 2) 依次向url发送info爬虫request. 3) 依次向url发送comment爬虫request. step1. mysql抽取; 1)查看rank3爬取的mysql数据,即具体产品页面url的数量爬取Macy网用户评价日志(1): 爬取首页分类目录
1. Macy网域名:https://www.macys.com/。 经过selenium测试,Macy网对selenium作了反爬,selenium只能打开一级页面,如果继续进行下一级操作,则该网站拒绝进入下一级url。 2. 根据分析,首先要爬取第一页的分类: 3. 将爬取到的首页分类url存放到rank_1_url表中。 初次建立数据库各