ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

网络爬虫百度新闻标题及链接爬取

2020-05-03 09:07:23  阅读:566  来源: 互联网

标签:url demo 代码 爬虫 新闻标题 爬取 getHTMLText text def


1.主题:百度新闻爬取

2.

python代码:

    

    import requests
    from bs4 import BeautifulSoup
    def getHTMLText(url):
      try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
      except:
        return ""
    def filllist(demo):
      soup=BeautifulSoup(demo,"html.parser")
      for i in soup.find_all("a"):
        list1=i.attrs
        print(i.text,end=' ')
        print(list1['href'])
    def main():
      url="http://news.baidu.com/"
      demo=getHTMLText(url)
      getHTMLText(url)
      filllist(demo)
    main()

代码完成之后就是这个样子

 

 

 

3.问题:在代码编写过程中,我遇到了很多问题,比如一开始用find函数总是出现错误,我也是看大家的代码才找到正确的打开方式。

    另外开始是这样的,一下子所有的属性都打出

    

 

 

 

  我的本意是只要链接的那部分属性,经过反复看视频和多次的实验终于解决了这个难题,形成了开头那个样子。很开心!

  但是开头和结尾还是有多余的部分不知道怎么解决,求助!

     

 

 

标签:url,demo,代码,爬虫,新闻标题,爬取,getHTMLText,text,def
来源: https://www.cnblogs.com/732jbw/p/12820719.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有