首页 > 其他分享> > 爬取微博热搜

爬取微博热搜

2020-04-24 16:00:10 作者：互联网

1.主题式网络爬虫名称爬取微博热搜
2.主题式网络爬虫爬取的内容与数据特征分析爬取新浪网热搜排行榜、热度
3.主题式网络爬虫设计方案概述（包括实现思路与技术难点）

通过requests，beautifulsoup, pandas,matplotlib.pyplot等等进行网页爬取，数据提取分析，数据可视化

import requests
from bs4 import BeautifulSoup
import pandas as pd
url='https://s.weibo.com/top/summary?cate=realtimehot'
headers={'User-Agent':url}
r=requests.get(url,headers=headers)
#print(r.text)
soup=BeautifulSoup(r.content,'html.parser')
title=soup.find_all("td",{"class":"al"})
for title in title[:10]:
    title.get_text()
sales=soup.find_all("td")
for sales in sales[:40]:
    print(sales.get_text())

print('\n====各列是否有缺失值情况如下：====')
print(df.isnull())     #统计空值情况
print(df.duplicated()) #查找重复值
print(df.isna().head()) 
print(df.describe())   #描述数据

绘图

总结

网络爬虫能帮助我们将数据简单化，可视化，更好的分析数据

标签：title,df,sales,爬虫,爬取,print,微博热
来源： https://www.cnblogs.com/1601460587qq/p/12768004.html