顶会热词分析
作者:互联网
import re
import requests
import pymysql
def insertCvpr(value):
db = pymysql.connect("localhost", "root", "root", "cvprlist", charset='utf8') # 连接数据库
cursor = db.cursor()
sql="""insert into cvpr values(%s,%s,%s,%s)"""
try:
cursor.execute(sql, value)
db.commit()
print('插入数据成功')
except:
db.rollback()
print("插入数据失败")
db.close()
url="http://openaccess.thecvf.com/ICCV2019.py";
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36 Edg/81.0.416.53"}
res=requests.get(url,headers=header);
res.encoding="utf-8";
list=re.findall("""<dt class="ptitle"><br><a href="(.*?)">.*?</a></dt>""",res.text,re.S);
for item in list:
# print(item)
res=requests.get("http://openaccess.thecvf.com/"+item) #爬取到的网站是相对路径,所以要补全,下方同理
res.encoding="utf-8"
title=re.findall("""<div id="papertitle">(.*?)</div>""",res.text,re.S)
summry=re.findall("""<div id="abstract" >(.*?)</div>""",res.text,re.S)
link=re.findall("""\[<a href="\.\./\.\./(.*?)">pdf</a>\]""",res.text,re.S)
if(len(title)>0): #有的网站可能爬取不到,数组为空,直接获取会导致程序崩溃
insertCvpr((title[0].replace("\n", ""),summry[0].replace("\n", ""),title[0].replace("\n", ""),"http://openaccess.thecvf.com/"+link[0]))
标签:分析,title,热词,res,db,re,text,顶会,findall 来源: https://www.cnblogs.com/wyppaa/p/13093760.html