编程语言
首页 > 编程语言> > 【一】,python简单爬虫实现

【一】,python简单爬虫实现

作者:互联网

1.获取当前页的课程名称,地址:https://www.ichunqiu.com/courses/webaq

 

2.选区其中一门课程名称查看源代码:

代码如下:

<p class="coursename" title="Kaltura 远程代码执行漏洞(CVE-2017-14143)" onclick="javascript:window.open

 

3.正则表达式获取课程名称:

#coding=utf-8
import re
html = '''
<!DOCTYPE html>
<html>
#此处为需要爬去页面的源代码
</html>
'''
title = re.findall(r'<p class="coursename" title="(.*?)" onclick',html)
print (title)

执行结果如下:页面所以课程名称获取到

 

遍历:

#coding=utf-8
import re
html = '''
<!DOCTYPE html>
<html>
#此处为需要爬去页面的源代码
</html>
'''
title = re.findall(r'<p class="coursename" title="(.*?)" onclick',html)
# print (title)
for i in  title:
    print(i)

效果如下:

 

标签:python,coding,爬虫,课程名称,re,简单,源代码,findall,页面
来源: https://www.cnblogs.com/dnoir/p/10767383.html