首页 > 其他分享> > 研一第一周总结

研一第一周总结

2021-10-05 10:33:27 作者：互联网

　　在本周主要进行两件事情。一是基于pdf文档解析的金融数据采集系统项目，二是自主学习机器学习相关知识。

　　该项目的技术路线是爬取深圳、上海两个交易所的年度和半年度报告的pdf，然后转为文本文件，关注管理层的讨论与分析章节，发现关注点。我通过查阅相关知识，对爬虫进行初步的了解，然后开始对深交所进行爬取。首先是对网页进行分析，获取下载地址；在这个步骤中，发现和我学习的简单的网页的爬取不一样，通过深交所给出的链接爬取不到网页信息，对这个问题我查阅了一些博客，选取的一种解决办法是通过filter进行抓包，获取到实际链接以及请求头和请求参数。接下来就是将pdf转成文本文件，最开始选取的是pdfminer库，发现效果并不好，转而使用pdfplumber库，但是一直出现调用pdfminer的情况，删除pdfminer后也未能解决。

　　这周通过课程学习了机器学习的基础知识。现将笔记贴在下面：

标签：总结,爬取,网页,第一周,学习,文本文件,pdfminer,pdf,研一
来源： https://www.cnblogs.com/jilinxiaoqu/p/15368117.html