Macy

首页 > TAG信息列表 > Macy

爬取Macy网用户评价日志（1）：需求存储数据库设计

一、数据库设计如图： mysql> show tables; +-------------------------------------+ | Tables_in_macy | +-------------------------------------+ | rank1_cate_urls | | rank2_cate_urls

爬取Macy网用户评价日志（0）：项目介绍和需求分析，任务设计

1. 背景叙述；因为本项目的目的是：爬取所有产品的价格、图片、标题、评论信息。 1）打开macy网页面：macy网，一共要经过四层url链接能够到达具体产品信息页面。如图所示。图1. Macy首页面图2. Women下分类页面图3. WomenàTops下分类页面图4. WomenàTopsàp

爬取Macy网用户评价日志（4）：报错总结。

报错总结： 1. stack overflow。 1) 描述：在Tops下面的具体分类下，例如tops1, tops2, tops3等，我使用了线程池的方法，开了10个线程去爬取每一个页面中的具体不同tops的url.其中因为会匹配next page.然后，应为next page使用了嵌套函数。get_html中套用了当发现next

爬取Macy网用户评价日志（3）：爬取comment的设计（具体执行）

step0. main函数。 1）从mysql中抓取所有未请求的url; 创建url列表； 2) 依次向url发送info爬虫request. 3) 依次向url发送comment爬虫request. step1. mysql抽取； 1）查看rank3爬取的mysql数据，即具体产品页面url的数量

爬取Macy网用户评价日志（1）：爬取首页分类目录

1. Macy网域名：https://www.macys.com/。经过selenium测试，Macy网对selenium作了反爬，selenium只能打开一级页面，如果继续进行下一级操作，则该网站拒绝进入下一级url。 2. 根据分析，首先要爬取第一页的分类： 3. 将爬取到的首页分类url存放到rank_1_url表中。初次建立数据库各