关于BOSS里 游戏服务器 职位的八爪鱼的使用和selenium爬虫
作者:互联网
首先在 先下载一个 八爪鱼 软件
然后在BOSS上搜索 游戏服务器
复制该链接到八爪鱼中去检索 基础信息
直接生成采集设置 获得基础信息
点击 采集 即可获得所有基础信息
在这个d列这里获得的都是 每个职位的页面 ,我们选择需要获取的每个职位的职位描述,这通过八爪鱼是不能获取的。
因此,我们需要用到Python的selenium模块。
鼠标右键查看源代码 找到我们需要的信息 发现它在xpath("//div[@class='text']")下面
现在,我们可以开始最喜欢的编写代码啦!
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import time
import requests
import csv
import urllib3
http = urllib3.PoolManager(cert_reqs='CERT_NONE') # 这段代码没有意义
import openpyxl
filename = r'boss基础页面.xlsx' # 导入我们从八爪鱼获取的基础信息
inwb = openpyxl.load_workbook(filename) # 读文件
sheetnames = inwb.get_sheet_names() # 获取读文件中所有的sheet,通过名字的方式
ws = inwb.get_sheet_by_name(sheetnames[0]) # 获取第一个sheet内容
rows = ws.max_row # 获得最大行
cols = ws.max_column # 获得最大列
# webdriver模拟器
driver = webdriver.Chrome(r'D:\Anaconda3\chromedriver.exe')
# driver.get('https://www.zhipin.com/?sid=sem_pz_sgpc_title')
ws.cell(1,14).value = '职位描述'
position = list()
for i in range(2,rows):
========================中间这一段是在循环里的=====================
# 循环获取excel里第4列的url
url = ws.cell(i,4).value
# 通过webdriver去自动登陆这个网站
driver.get(url)
# 这段非常有意义 因为BOSS有缓冲机制,我们需要等待一下才能获得真正的源代码
time.sleep(5)
# import lxml
# from lxml import html
# import re
# driver.maximize_window()
from lxml import html
# 获取页面源代码
html_source = driver.page_source
# 重点
html = html.fromstring(html_source)
# 获取标签下所有文本
items = html.xpath("//div[@class='text']")
from lxml import html
myWant = html.tostring(items[0], encoding='utf-8').decode('utf-8')
ws.cell(i,14).value = myWant
print(i)
print(myWant)
position.append(myWant)
# 这段是为了不要跑太快,以至于被BOSS检测到
time.sleep(5)
==============================================================
driver.quit()
saveExcel = 'E:\\boss.xlsx'
inwb.save(saveExcel)
标签:八爪,selenium,BOSS,获取,html,ws,import,driver 来源: https://www.cnblogs.com/lpfeng/p/15975372.html