山东大学舆情分析系统算法模块开发日志 2021.04.04
作者:互联网
算法模块开发日志 2021.04.04
算法模块
- 优化了保留词、停用词、无关词、分词工具的加载方式,分词速度得到提高
- 增加了保留词、无关词词库的内容,使分词结果更加准确
- 增加了如下功能:
- 获取出现频率前十的热词
- 获取某个热词当天及前三十天的热词频度
- 获取某个热词当月及前十二月的热词频度
- 获取某个热词当年及前十年的热词频度
- 获取某个热词数据来源分布等方法
GitHub地址:https://github.com/STK425/Algorithm
系统框架
初步的系统框架设计。
主程序(SDU_POAS.py):
import Crawler_Algorithm as CA
import Web_Monitor as WM
def main():
#CA.Main_Loop()
WM.Web_Listener()
if __name__ == '__main__':
main()
爬虫、算法部分(Crawler_Algorithm.py):
import time
import Database as db
def Main_Loop():
i = int(input())
while i != 0:
res = Web_Crawler()
Algorithm(res)
time.sleep(5)#60 * 60
i = int(input())
#爬虫模块接口
def crawl(url):
print("crawling")
res = []
return res
def Web_Crawler():
url_set = db.get_url()
for item in url_set:
crawl(item)
res = []
return res
#算法模块接口
def Algorithm(data_set):
print("algorithm")
网页监听部分(Web_Monitor.py):
import Crawler_Algorithm as CA
def Get_url():
print("url")
def Login(account, password):
if account == "123" and password == "123":
return True
else:
return False
def Web_Listener():
ac = input("账号:")
pw = input("密码:")
if Login(ac, pw):
print("功能代号:\n0:退出\t11:启动主程序\t2指定url")#关闭程序、管理url、管理热词……
i = int(input("请输入功能代号"))
while i != 0:
if i == 1:
CA.Main_Loop()
elif i == 2:
Get_url()
i = int(input())
else:
print("登录失败")
数据库部分(Database.py):
#import pymysql
def get_url():
return ["https://www.baidu.com"]
def get_user():
print("get_user")
def get_KW():
print("get_KW")
def get_info():
print("get_info")
def set_url():
print("set_url")
def set_user():
print("set_user")
def set_KW():
print("set_KW")
def set_info():
print("set_info")
标签:set,04,2021.04,get,url,热词,print,日志,def 来源: https://blog.csdn.net/Mrz_orz/article/details/115427829