其他分享
首页 > 其他分享> > 研一第一周总结

研一第一周总结

作者:互联网

   在本周主要进行两件事情。一是基于pdf文档解析的金融数据采集系统项目,二是自主学习机器学习相关知识。 

   该项目的技术路线是爬取深圳、上海两个交易所的年度和半年度报告的pdf,然后转为文本文件,关注管理层的讨论与分析章节,发现关注点。我通过查阅相关知识,对爬虫进行初步的了解,然后开始对深交所进行爬取。首先是对网页进行分析,获取下载地址;在这个步骤中,发现和我学习的简单的网页的爬取不一样,通过深交所给出的链接爬取不到网页信息,对这个问题我查阅了一些博客,选取的一种解决办法是通过filter进行抓包,获取到实际链接以及请求头和请求参数。接下来就是将pdf转成文本文件,最开始选取的是pdfminer库,发现效果并不好,转而使用pdfplumber库,但是一直出现调用pdfminer的情况,删除pdfminer后也未能解决。

  这周通过课程学习了机器学习的基础知识。现将笔记贴在下面:

  

 

 

  

 

标签:总结,爬取,网页,第一周,学习,文本文件,pdfminer,pdf,研一
来源: https://www.cnblogs.com/jilinxiaoqu/p/15368117.html