当年pass到很多扒手的题
作者:互联网
经典的爬虫面试题
网站:http://datamining.comratings.com/exam
如何抓取10个ip,这题很经典,当时淘汰了很多扒手,去年我也搞了很久。
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/7dd1f305ee221637ef64b99f2034d8b8.png)
先查看网页源代码,啥也没有
<iframe src="/exam2" frameborder="no" width="750" height="500"></iframe>
看不懂就抓包
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/a3ff6a832000b6a0fbc7eb82c7003127.jpeg)
可以看到经过了2次请求,最后在http://datamining.comratings.com/exam3中得到数据,现在注意resquesr中的hearder传入的参数
那就先请求一次,第二次带上hearders
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/544960be6e0868f57606279e13a4c426.jpeg)
去掉hearders中的参数
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/7acddcb8c5286ff3766717d3c48b4bfc.jpeg)
有经验的人就知道cookie是重要参数
思路
分析cookie 的三个值怎么来
用seesion来保存cookie
cookie中有一个值是session,说明了用session访问时,必须拿到session的值
将cookie搞定,访问最后的链接
http://datamining.comratings.com/exam3
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/87c88c98795b53829661ae5377a55419.png)
就是三个值而已,到底从哪里来的,摆明就是js生成的,那赶紧找第一次的js
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/b3fa792ef67257bf2f58bc3223a78f72.jpeg)
复制js
在这个http://tool.oschina.net/codeformat/js/ 网站js格式化
![1614775574595347.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775574595347.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
在控制台运行一下,就是返回一样的页面
![1614775567540130.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775567540130.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
之后下一次请求在抓包没有发现js,而且cookies已经生成
![1614775562875531.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775562875531.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
神坑:这里的js还要需要html渲染
那就写个html 将上面js直接渲染,看看发生了啥?
![1614775547610382.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775547610382.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
果然不出我料,这个cookies生成的js终于找到了
![1614775542522774.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775542522774.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
格式化,将之前的js 替换
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/3f3cc89ca1ad66486952259f7ad2011e.jpeg)
两张图片连在一起
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/59b1c01b75ac9127f4db0db7f50baebe.png)
难点:将js用python复写
补充下JavaScript charAt() 方法
![图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/ba2552646ac209eb621723a61cdfe54e.png)
将这个js函数用python改写
![1614775532341839.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775532341839.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
将js中的变量复到python文件中,调用自己写的f1
![1614775524386298.png image.png](http://www.icode9.com/i/li/?n=2&i=images/20210303/1614775524386298.png?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=)
测试,输出了c2的值
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/de2051f95a61a179a26c3917da985a3b.png)
现在问题转成了怎么搞定session
debug搞定
用debug看下r.cookies 中的seesion位置
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/c451ba58be7c0b9c5d171109629e2494.png)
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/abbf68b474141bff609c6a3fbd4ca2e9.png)
还要正则处理将session匹对出来
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/077890971c7c08745deffaca78fcee38.png)
再看下js,这个c1和c2怎么来的,具体调用了什么方法
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/abda44cd5531b478f309e9d4e9d8630e.png)
不就是取前面几个切片,再调用f1函数
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/18732937c1ac9182da722781c4e306b5.png)
将参数传入,搞定
![在这里插入图片描述 图片](http://www.icode9.com/i/li/?n=4&i=images/blog/202103/03/eabc758f9b8bd9a5169259371f166513.jpeg)
我终于看到了数字ip了
说明下:现在网站访问不了,好像被封了,所以代码不提供。
最后,祝有所学习,有所成长
转发,好看支持一下,感谢
你的转发,就是对我最大的支持
标签:这里,js,当年,插入,session,pass,描述,图片,扒手 来源: https://blog.51cto.com/15082391/2645962