基于Python爬虫技术下网络招聘大数据的应用探索与实现

疫情封控,现场招聘举办的难度大增,一定程度上增加了招聘网站的流量,网络招聘越来越成为各公司的招聘首选手段,网络招聘还具有岗位齐全、信息综合,样本数量大、反映企业真实需求、时效性高等特点,可以预见,通过分析研究招聘网站信息来研究就业市场必将越来越流行。

(二)技术方法。

1.Python。

Python是一种简单易学、功能强大的计算机程序设计语言,它有高效率的高层数据结构,简单而有效地实现面向对象编程。Python简洁的语法和对动态输入的支持,让人更加容易阅读、调试和扩展,再加上其高度集成了解释性、交互性、面向对象性和丰富的可扩展性等特点,特别是可导入多种模块,大量的第三方科学计算函数库都有对应版本对其支持,使得Python语言在爬虫和大数据处理分析方面优点明显。

本项目,运用python中的requests模块编写抓取软件,实现台州人才网职位JSON源文件的下载;结合json模块实现JSON数据源的解析,再结合xlwings模块进行数据存取。最后,结合pandas、matplotlib和pyecharts等模块进行数据挖掘及展示。

2.网络爬虫。

网络爬虫(WebCrawler),又称网页蜘蛛、网络机器人,是一种按照一定规则,自动抓取万维网数据信息的程序。网络爬虫的基本实现原理及过程:通过互联网获取网页初始URL链接,将初始网页存储至本机,并对初始网页中出现的新URL链接进行爬取,始终重复上述过程,直至满足设定的停止条件。若无停止条件,则直到无法获取新的URL链接为止,以此实现对网页数据的遍历,供后期数据分析使用。

二、爬虫软件设计流程

(一)网站分析。

点击浏览器工具里的开发人员工具,选择network选项卡中XHR标签,再点再F5来刷新网页,可以通过返回信息里的getjobs返回页面的预览为标准的json数据,主要内容如下:

{msg:"success",listcount:1179,pagecount:66,pagesize:18,pageindex:1,…}

可以了解到,网站的职位信息通过AJAX异步请求来组织数据传输。

分析getjobs返回页面的jobs标签,可以看到:

jobs:[{

jobs:[{id:475081,userid:2872929,compid:2872929,workface:"社会人士,",

area:"温岭市"

bdmap:""

company:"温岭市七星电机有限公司"

companyhead:""

,…]

可以得出,该处的键值名分别有workface、company、area、job、edu、salary和language,分别对应职位的职业要求、公司名、工作区域、职位名称、教育要求、工资和外语要求等含义。可见,其数据结构与结构化数据库方式相同,也与excel的行与列的结构形式相似,数据保存方式可以用结构化数据库和excel进行保存,考虑统计分析的使用习惯,本文选用excel来保存数据,因此本文使用xlwings模块进行excel数据存取。

(二)程序设计。

因爬取的数据是以JSON格式组织的,因此程序流程主要分为如下步骤完成

1.利用request获得response对象。

如果网站的请求不是从浏览器发出,则无法获得服务器相应内容,所以爬虫程序需要伪装成一个从浏览器发出的请求,就要求程序在发送Request请求时,需要加入特定的headers。分析在台州人才网的xhr标签的标头,其表单数据部分为:

apiurl:/Open/Api/

comefrom:电脑端

label:website

secret:374472D1C57F388C7171A347459EA738

可以看出apiurl字段为getjobs网页在服务器上的相对路径,一般网站为了防止因为搜索引擎和网络爬虫的爬取,常使用一定的防盗链签名,secret字段就是这种防盗链签名。

根据以上分析,params、headers和response分别如下:

params={

'apiurl':'/Open/Api/',

'comefrom':'电脑端',

'label':'website',

'secret':374472D1C57F388C7171A347459EA738,

}

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)'

'Chrome/86.0.4240.198Safari/537.36'

response=requests.get(url=url,params=params,headers=headers)

2.将response对象返回的数据进行分页爬取。

根据代码段:

result=json.loads(response.text)

得到的就是json数据,分析json数据得到pagecount键值为总页面数。

通过代码段:

forpinrange(result['pagecount']):

这样的for循环,可以组织每个不同的页面的爬取路径。

再通过得到的页面json数据,通过代码段:

foriinresult['jobs']:

可得到完整结构的jobs职位信息。

3.将爬取的数据保存在Excel中。

通过list列表作为单行的jobs数据进行临时保存,代码段:

info_list.append(

…,

i['workface'],i['companyhead'],i['company'],

)

再通过sheet进行填充,因为数据的第一行是标题,填充要从第二行的第一列开始(也就是a2),代码段:

sheet.range('a2').value=info_list

保存为“test.xlsx”Excel工作簿的代码段:

workbook.save('test.xlsx')

三、数据分析

(一)数据处理分析。

通过数据结构了解,有:id、userid、compid、workface、companyhead、companyicon、bdmap、industry、companytype、companysize、companymoney、job、num、welfare、area、edu、salary、worktype、worktime、language、minage、maxage、minsalary、maxsalary、time、refreshtime、hits、status和sort字段,一般公司名称、岗位数量、岗位名称、职位要求和工资水平一般比较重要。

根据job列的岗位名称分析,一周内共有311个岗位,根据岗位名称去重后得到共计273个不同岗位名,比如:研发工程师(产品经理助理)和研发工程师(JAVA开发),同为研发工程师就有针对产品经理助理和JAVA开发的,因此很难根据岗位名称进行分析。薪酬水平也是重要的信息,但《台州人才网》的薪酬数据是10000及以上、8000到9999和7000到7999等范围字段来安排,因此没有办法明确了解更精确的工资数据,尚无法分析平均工资等数据。依据现有数据分析能力,明确分析的重点有:学历要求、工作经验要求、薪酬范围情况、相同岗位名称出现多少和提供岗位数前十的单位等五项。

(二)数据处理设计。

1.学历要求。

学历要求占比可以用环形图来展示,因此可以使用matplotlib.pyplot模块,该模块需要pandas模块支持,也需要一起导入,并导入xlwings模块对excel表格进行支持。

程序代码段:

plt.rcParams['font.sans-serif']=['SimHei']

plt.rcParams['axes.unicode_minus']=False

x=df['学历']

y=df['岗位数']

plt.pie(y,labels=x,autopct='%.2f%%',pctdistance=0.85,radius=1.0,labeldistance=1.1,wedgeprops={'width':0.3,'linewidth':2,'edgecolor':'white'})

plt.title(label='',fontdict={'color':'black','size':30},loc='center')

根据环形图可知,当前台州市对大专学历的就业者需求最大,台州市以制造业发达见长,大量的工业企业也正在改进技术,智能制造越来越成为企业的行进方向,工业企业对员工的学历要求也越来越高。

2.工作经验要求。

工作经验要求展示的程序设计几乎同于学历要求。

根据环形图可知,58.7%的岗位要求是有工作经验的社会人士,25.4%的岗位对毕业生开放,毕业生群体的就业难度明显低于社会人士,当前毕业生就业难度比较低。

3.薪酬范围情况。

在对数据的掌握及分析变得愈加重要的当今时代,数据可视化作为提高用户对数据的理解程度、创新架构和增进体验的重要一环,一向富有表现力的Python语言应当可以发挥更大作用,优秀的pyechart第三方库即在这样的背景下诞生。pyecharts库是一个用于生成Echarts图表的类库,Echarts是一个由百度开源的商业级数据图表,并于2018年初捐赠给Apache基金会,成为ASF孵化级项目。2021年1月Apache基金会官方宣布ECharts项目正式毕业,成为Apache顶级项目。。

ECharts可提供了常规的折线图、柱状图、散点图、饼图、K线图外,还可用于BI的漏斗图,仪表盘,并且支持图与图之间的混搭。它是一个纯JavaScript的图表库,可以为用户提供直观生动,可交互,可高度个性化定制的数据可视化图表,赋予了用户对数据进行挖掘整合的能力,同时,可以被网站直接使用,更增加了数据显示的途径。本文对薪酬显示部分,引入pyecharts模板进行显示。

salarys=data["salarys"]

sums=data["sums"]

pie=Pie("",title_pos='center',width=800)

pie.add("",salarys,sums,is_label_show=True,is_toolbox_show=False)

pie.render('rose.html')

4.岗位名称关键词情况。

比如:研发工程师(产品经理助理)和研发工程师(JAVA开发),同为研发工程师就有针对产品经理助理和JAVA开发的,很难根据岗位名称进行分析。本文利用Python的jieba模块进行分词,再通过WordCloud模块将岗位高频关键词进行词云化。

ls=jieba.lcut(s)#生成分词列表

ls=s

text=''.join(ls)#连接成字符串

word=WordCloud(

font_path='fz.ttf',#设置字体,本机的字体

background_color='white',#设置背景颜色

max_font_size=150,#设置字体最大值

max_words=2000,#设置最大显示字数

).generate(ls)

image=word.to_image()

word.to_file('2.png')

根据词云图生成原理,词语显示规格越突出、距离中心位置越近词语出现频率越高。从词云图可以看出工程师、专员和助理这三个工种招聘关键词出现次数最多。台州市作为制造业发展较好的城市,对高技能工种需求比较高,高技能人才也更易在台州找到工作。

5.提供岗位数前十的单位。

根据每个企业提供的招聘职位数据,进行合计汇总,并进行排序,可通过xlwings模块绘制柱形图。

chart=i.charts.add(left=200,top=0,width=355,height=211)

chart.set_source_data(i['A1'].expand('table'))

chart.chart_type='bar_clustered'

代码中bar_clustered就是指定了样式为柱形图。

可以看出,台州众凯企业管理咨询有限公司和浙江华诚会计师事务所有限公司招聘的人数最多,分析这两家公司的招聘内容,可以得知其主要负责代招,因为有较多的公司没有专业的人力资源人员,需代招中介公司组织代为初招。

四、结语

本文通过分析招聘网站网页结构,利用Python语言及其强大的第三方库编写爬虫代码,获取相应的职位信息,并对收集到的数据进行清洗整理及分析,结合可视化图表及词云图了解招聘需求等。

本文的不足之处主要有三个方向:一是本文只获取了单个网站的就业信息,无法代表全市及各县(市、区)的全部网络招聘情况,下一步的重点将放在如何进行多数据源的就业信息获取及合并,以获得更加全面的就业信息;二是本文在分析岗位名时也提到,同为研发工程师就有分别针对产品经理助理和JAVA开发的,很难根据岗位名称进行分析,需要借助人工智能进行分析,需要用Python写神经网络进行训练等;三是本文虽获取了就业单位的信息,但没有做好产业及行业的相对应匹配,无法进行产业及行业需求的深层级统计分析,进一步的分析则需要借助一些大数据技术实施。

THE END
1.python3分布式爬虫log: 使用 scrapy.log.msg() 方法记录(log)message closed: 当spider关闭时,该函数被调用 5.6 Item Pipeline 当Item 在 Spider 中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Ithttps://www.jianshu.com/p/ec3dfaec3c9b
2.msg是什么意思pythonmob649e8160b585的技术博客如何在Python中实现msg的含义分析 引言 在学习Python的过程中,我们常常需要处理字符串、信息和数据。在Python中,msg这个词可以用于多种场景,比如消息、字符串数据等等。本篇文章将带你逐步学习如何实现对msg的处理和分析。 整体流程 在开始之前,我们可以明确整个流程。下面是一个简单的步骤表格: https://blog.51cto.com/u_16175485/12784690
3.Python基础字符串类型python中msg2、定义:msg = 'hello' python 底层 msg = str('hello') 3、类型转换: str()可以将任意类型转换为字符串 4、使用: 4.1 内置方法-优先掌握 4.1.1 按索引取值:正向取 msg[1],反向取 msg[-1] 4.1.2 切片:索引的拓展(顾头不顾尾) 4.1.3 len 统计字符个数 https://blog.csdn.net/yuetaope/article/details/120020073
4.python强势来袭0015函数中的参数送礼开始规则3:实际参数可以传递任意对象(python中一切皆对象) 1.3.3. 函数参数默认值 某些时候,我们可以给函数的参数定义默认值,这样函数在调用过程中,如果某些参数没有传递,就直接使用默认值来执行函数代码了,函数默认参数确定比较简单,直接在形式参数上赋值就可以 # 重新定义函数,给参数设置默认值5 def getCircleArea(pihttps://www.imooc.com/article/21937
5.ros自定义msg文件(python版)ros自定义msg文件(python版) 首先,我们需要了解自定义msg文件的必要性。在ROS中,虽然std_msgs已经提供了一些基础数据类型(例如string、int32、char、bool等),但它们通常仅包含单个data字段,对于传输复杂数据(例如激光雷达数据)就显得力不从心了。因此,自定义msg文件的重要性不言而喻。https://www.yoojia.com/ask/17-14381784325414058452.html
6.python编程语言基础知识msg函数Python的msg函数是一个非常有用的函数,它可以简化消息传递的过程,提高代码的可读性和可维护性。通过将消息显示的部分提取出来,我们可以使代码更加清晰易读。msg函数还可以用于接收用户输入,实现与用户的交互。不仅如此,msg函数还可以在各种环境中使用,不仅限于控制台。无论是在控制台还是在图形界面应用程序中,我们都可https://www.bwie.com/jsgh/31.html