首页 > 编程语言> > 用python爬虫实现中国大学信息的获取（简略版）

用python爬虫实现中国大学信息的获取（简略版）

2021-01-28 20:03:30 作者：互联网

用python爬虫实现中国大学信息的获取（简略版）

前期准备：

	一些python语言基础
	开发IDE：pycharm
	bs4,xlwt等python第三方库的安装

爬虫思路（代码解析）：

第一步：爬取网页的源代码
熟悉re库的用法，这一步主要是你得把网页后面的源代码爬取下来，HTMl语言大概能看懂就成，python代码很短，8，9行基本就能实现（具体见askurl函数，81行），我采用的是post请求，封装了一下header。（目的是为欺骗网站我们是一个浏览器而不是一个爬虫），自己本机的信息在浏览器的开发者模式下都可以看到。实现网页翻页的话改变网址就成，一般而言是改变某个数字，很方便，用for循环控制一下就成（31行）。

第二步：解析网页，获取我们想要的数据
熟悉beautifulsoup库的用法，个人感觉本质是就是搜寻我们需要的信息然后以列表的形式返回，先找标签，先爬一个，比如我的data就是一个大学的信息（图片链接，名称，地域等等）。然后找到标签后进行搜寻，我搜寻的原则采取的是正则表达式。

第三步：保存进数据库
当然，我保存进了excel表，这步比较简单，用utf-8编码创建一个excel对象，然后创建一个sheet表，然后用函数写入，最后保存

小总结：
当然，这中间会遇到很多小问题，比如发现utf-8编码不行，就采用了ANSI编码，然后正则表达式有一些细节换行要不要加进去，列表中出现了我们不需要的元素用replace函数替换等等等等（省略50字）

上源码：在这里插入图片描述

标签：编码,网页,python,爬虫,搜寻,中国大学,源代码
来源： https://blog.csdn.net/weixin_46629682/article/details/113356980