其他分享
首页 > 其他分享> > 爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行)

爬取Macy网用户评价日志(3): 爬取comment的设计(具体执行)

作者:互联网

step0. main函数。

          1)从mysql中抓取所有未请求的url; 创建url列表;

          2)  依次向url发送info爬虫request.

          3)  依次向url发送comment爬虫request.

step1. mysql抽取;

          1)查看rank3爬取的mysql数据,即具体产品页面url的数量。目前我爬取的数据已经超过了10000条以上。

               因此,需要考虑创建的“rank3 mysql提取类”的提取方法和顺序,以及提取的数量是否python的list可以放得下。

               ① 考虑python list的容量。

                      1----------32位python的限制是 536870912 个元素。

                      2----------64位python的限制是 1152921504606846975 个元素。

                      就目前来看,64位python的数量是可以放下10万条以上mysql的list的。所以暂时还是考虑使用cursor.fetchall()的方法。

step2. info爬取;

step3. comment爬取;

           

标签:comment,python,list,Macy,爬取,url,mysql
来源: https://www.cnblogs.com/cainiaoxuexi2017-ZYA/p/15806007.html