编程语言
首页 > 编程语言> > 数据太多急着下班怎么办?python:那都不是事,三行代码轻松解决!

数据太多急着下班怎么办?python:那都不是事,三行代码轻松解决!

作者:互联网

 

嗨嗨嗨

这里是汐仔

爬虫相信很多朋友都听过吧,

爬虫是一段可以在网页上自动抓取信息的程序,可以帮助我们获取一些有用的信息。能够完成上述功能的都可以称为爬虫,你要问我爬虫能干什么?那我只能回答你,什么都能干!爬的可以的,可以爬取你想要的数据,做的好那大概可以吃住不愁了。当然,作为一个遵纪守法的好公民,这种事情我们是坚决不提倡的!!!

 

那目前主流的Python爬虫框架呢主要分为调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。编写爬虫程序是一个非常有用的技能点,尤其对 Python 工程师而言甚至是必备技能。我们可以将数据采集到以后,通过数据清洗,结构化等步骤最后让数据用来做商业分析;也可以拿到信息并用于日常生活,比如买房前抓取对应地区历史成交记录再决策;还可以实现一个聚合应用,甚至未来能商业化运作,说到这里你有没有心动呢!反正汐仔我已经蠢蠢欲动啦。

那么汐仔再这里给你简单的介绍一下,怎么去系统的学习爬虫吧!

 

 

首先呢,我们要来了解的三个基础的东西,了解这部分的可以自己实践一下呀,毕竟实践出真知嘛。

1、url相关知识:

我们知道网址一般都是https://www.xxxx.com/,url即是网址;或者是指统一资源定位符,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。这里需要了解一般url前面都有https或者http,这个指网络的相关协议,我们可以先不管它

比如我们在浏览器中输入一个:https://www.sougo.com/

于是我们便请求到了搜狗的网页:

 

2、然后查看页面网页信息
我们可以在百度页面中按鼠标右键,选择检查,就得到下图的页面:

 

于是我们可以看到页面右边出现了页面的相关网页代码,这个就是由(html,css,js)来编写的网页代码,我们要熟练的使用这个查看源码的方法。或者说你可以使用快捷键ctrl+shift+i,得到如图页面。

还有就是如果你只想点击一个页面的一个小部分部分来查找对应的代码,操作如下:在下面的页面中点击红色区域中的箭头:

 

那么为什么要查找代码呢,因为就是这些网页代码就构成了页面,在代码中可以找到自己所需要的信息,比如文字,图片等等......

接着右边的对应此蓝色界面的代码就会显示出来。

 

 

我们就可以对此页面进行下一步解析了。

3、网页组成
现在网页无非是动态网页加静态网页组合,所谓静态网页一般是由HTML和css语言编写构成。

   HTML通过不同类型的标签来表示,比如“img”存放图片的 标签,“input”用户输入的标签,表示形式为:<标签>文字内容</便签>。各个部分又用标签嵌套组成,各种不同标签,不同的排列在一起,一些标签中通常会由class,id属性,我们可以通过这些属性来获取需要得到的信息。

其实通过这个标签嵌套便可以知道爬虫的含义,通过外层的标签一步步的获取内部标签的内容,一层借一层。简单来说,爬虫就是获取网页并提取和保存信息的自动程序,可以自动,大量代替人来爬取数据信息。

 

那么以上就是学习爬虫需要了解的简单知识了。后面的就可以进行一些实战的操作啦,至于其他一些,我们下期再说呀!

喜欢汐仔的文章,就给我一键三联吧。

标签:代码,网页,python,标签,太多急,爬虫,三行,可以,页面
来源: https://www.cnblogs.com/2433c/p/14539099.html