编程语言
首页 > 编程语言> > Python库大全(涵盖了Python应用的方方面面),建议收藏留用!

Python库大全(涵盖了Python应用的方方面面),建议收藏留用!

作者:互联网

前端时间闲的无聊, 对Python兴趣徒增。学习这事儿吧,光看没用,还是要是实战,顺手搜了一些写的不错的开源库,也看了些博客。总结一些,分享给大家。

img

image
当然在学习Python的道路上肯定会困难,没有好的学习资料,怎么去学习呢?  学习Python中有不明白推荐加入交流群号:984137898 群里有志同道合的小伙伴,互帮互助,  群里有不错的视频学习教程和PDF!

学Python,想必大家都是从爬虫开始的吧。毕竟网上类似的资源很丰富,开源项目也非常多。

Python学习网络爬虫主要分3个大的版块:抓取分析存储

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.tuotiao.com,你就会看到头条站首页。

简单来说这段过程发生了以下四个步骤:

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据,而不需要一步步人工去操纵浏览器获取。

抓取这一步,你要明确要得到的内容是什么?是HTML源码,还是Json格式的字符串等。将得到内容逐一解析就好。具体的如何解析,以及如何处理数据,文章后面提供了非常详细的且功能强大的开源库列表。

当然了,爬去别人家的数据,很有可能会遭遇反爬虫机制的,怎么办**?使用代理。**

适用情况:限制IP地址情况,也可解决由于“频繁点击”而需要输入验证码登陆的情况。

这种情况最好的办法就是维护一个代理IP池,网上有很多免费的代理IP,良莠不齐,可以通过筛选找到能用的。

对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。也就是伪装成浏览器,或者反“反盗链”。

对于网站有验证码的情况,我们有三种办法:

接下来我们重点聊聊验证码识别。

可以利用开源的Tesseract-OCR系统进行验证码图片的下载及识别,将识别的字符传到爬虫系统进行模拟登陆。当然也可以将验证码图片上传到打码平台上进行识别。如果不成功,可以再次更新验证码识别,直到成功为止。

好了,爬虫就简单聊到这儿,有兴趣的朋友可以去网上搜索更详细的内容。

文末附上本文重点:实用Python库大全。

网络

网络爬虫框架

HTML/XML解析器

文本处理

用于解析和操作简单文本的库。

自然语言处理

处理人类语言问题的库。

浏览器自动化与仿真

多重处理

异步

异步网络编程库

队列

云计算

网页内容提取

提取网页内容的库。

WebSocket

用于WebSocket的库。

DNS解析

计算机视觉

代理服务器

另:

Python有很多Web开发框架,大而全的开发框架非Django莫属,用得也最广泛.有很多公司有使用Django框架,如某狐,某讯等。以简洁著称的web.py,flask都非常易于上手,以异步高性能著称的tornado,源代码写得美如画,知乎,Quora都在用。

最后祝大家学的愉快,学的神速。

标签:留用,浏览器,异步,Python,爬虫,网络,HTML,大全
来源: https://blog.csdn.net/qq_41841569/article/details/89813574