首页 > 编程语言> > 【一】，python简单爬虫实现

【一】，python简单爬虫实现

2019-04-25 11:52:48 作者：互联网

1.获取当前页的课程名称，地址：https://www.ichunqiu.com/courses/webaq

2.选区其中一门课程名称查看源代码：

代码如下：

<p class="coursename" title="Kaltura 远程代码执行漏洞（CVE-2017-14143）" onclick="javascript:window.open

3.正则表达式获取课程名称：

#coding=utf-8
import re
html = '''
<!DOCTYPE html>
<html>
#此处为需要爬去页面的源代码
</html>
'''
title = re.findall(r'<p class="coursename" title="(.*?)" onclick',html)
print (title)

执行结果如下：页面所以课程名称获取到

遍历：

#coding=utf-8
import re
html = '''
<!DOCTYPE html>
<html>
#此处为需要爬去页面的源代码
</html>
'''
title = re.findall(r'<p class="coursename" title="(.*?)" onclick',html)
# print (title)
for i in  title:
    print(i)

效果如下：

标签：python,coding,爬虫,课程名称,re,简单,源代码,findall,页面
来源： https://www.cnblogs.com/dnoir/p/10767383.html