其他分享
首页 > 其他分享> > 关于BOSS里 游戏服务器 职位的八爪鱼的使用和selenium爬虫

关于BOSS里 游戏服务器 职位的八爪鱼的使用和selenium爬虫

作者:互联网

首先在 先下载一个 八爪鱼 软件

然后在BOSS上搜索 游戏服务器 

复制该链接到八爪鱼中去检索 基础信息

直接生成采集设置 获得基础信息

 

 

 点击 采集 即可获得所有基础信息

 

在这个d列这里获得的都是 每个职位的页面 ,我们选择需要获取的每个职位的职位描述,这通过八爪鱼是不能获取的。

因此,我们需要用到Python的selenium模块。

 

 

 

 

鼠标右键查看源代码 找到我们需要的信息 发现它在xpath("//div[@class='text']")下面

 

 

 

 

 现在,我们可以开始最喜欢的编写代码啦!

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import time
import requests
import csv

import urllib3

http = urllib3.PoolManager(cert_reqs='CERT_NONE') # 这段代码没有意义

import openpyxl
filename = r'boss基础页面.xlsx' # 导入我们从八爪鱼获取的基础信息
inwb = openpyxl.load_workbook(filename) # 读文件

sheetnames = inwb.get_sheet_names() # 获取读文件中所有的sheet,通过名字的方式
ws = inwb.get_sheet_by_name(sheetnames[0]) # 获取第一个sheet内容

rows = ws.max_row # 获得最大行
cols = ws.max_column # 获得最大列

 

# webdriver模拟器
driver = webdriver.Chrome(r'D:\Anaconda3\chromedriver.exe')
# driver.get('https://www.zhipin.com/?sid=sem_pz_sgpc_title')

ws.cell(1,14).value = '职位描述'
position = list()

for i in range(2,rows):

========================中间这一段是在循环里的=====================

# 循环获取excel里第4列的url
url = ws.cell(i,4).value
# 通过webdriver去自动登陆这个网站
driver.get(url)

# 这段非常有意义 因为BOSS有缓冲机制,我们需要等待一下才能获得真正的源代码
time.sleep(5)

# import lxml
# from lxml import html
# import re
# driver.maximize_window()

from lxml import html
# 获取页面源代码
html_source = driver.page_source
# 重点
html = html.fromstring(html_source)
# 获取标签下所有文本
items = html.xpath("//div[@class='text']")

from lxml import html
myWant = html.tostring(items[0], encoding='utf-8').decode('utf-8')
ws.cell(i,14).value = myWant
print(i)
print(myWant)

position.append(myWant)

# 这段是为了不要跑太快,以至于被BOSS检测到
time.sleep(5)

==============================================================

driver.quit()
saveExcel = 'E:\\boss.xlsx'
inwb.save(saveExcel)

 

标签:八爪,selenium,BOSS,获取,html,ws,import,driver
来源: https://www.cnblogs.com/lpfeng/p/15975372.html