ZoneSpider Day1

2020-02-29 23:03:20 作者：互联网

Day1

今天继续摸网页结构，我才发现关于那个获取信息的url的所有信息全在chrome F12里面有解释QAQ。
这是需要的header，似乎需要修改的只有cookies和path。path的内容下面有具体解释。

然后就是request的结构。

网页结构摸清楚后，就是构造session然后获得数据。
数据爬下来有点恶心，不规范的jsonp。把我搞了好久。它不仅有jsonp的头，还"key":"val"的key不加引号，解析全报错。最后问了万能群友，用了demjson解析，效率低下，但是可以用了
去头代码如下：

def loads_jsonp(_jsonp):
    try:
        return demjson.decode(re.match(".*?({.*}).*", _jsonp, re.S).group(1))
    except:
        raise ValueError('Invalid Input')

总算解析出字典了QAQ。今天就差不多这些了，明天就正式开始写HTML解析和数据统计了

标签：demjson,QAQ,Day1,ZoneSpider,re,jsonp,解析
来源： https://www.cnblogs.com/BeyondStars/p/12386857.html