View on GitHub

逃离北上广

What!

如果你是一个正准备逃离北上广等一线城市却又找不到去处的IT人士,或许这个项目能给你点建议。

Desc

项目起因,大约2年前,我大学毕业时,初入社会,完全不知道要到哪里去。于是当时写了个爬虫,抓取了各个城市的招聘、租房数据,分享了各个城市哪里工作机会多,哪里租房便宜,哪里大企业多…大约半年前,又到毕业季,看见很多人跟我当初一样讨论薪资,租房相关的东西,于是我想起了当时的这个项目,然后翻出当时的项目,改了改,最终开源出来,希望给大家一些参考。

爬虫抓取了智联招聘跟链家这2个平台的全部数据。目前抓到了18W+全国各个城市的招聘数据与200W+全国各地的房屋数据。

其中,招聘数据我直接爬的智联的ajax接口,接口返回中包括学历,工作经验,薪资,地点等等数据,原封不动,直接存MongoDB数据库。

使用了[‘php’, ‘java’, ‘python’, ‘c/c++’, ‘c#’, ‘mysql’, ‘oracle’, ‘javascript’, ‘linux’, ‘SQL’, ‘软件’, ‘程序员’]作为关键词搜索。基本上涵盖了程序猿们绝大部分工作

租房和二手房数据,我使用了Colly框架,抓的链接租房和二手房页面。

Release Date

数据更新日期:2019-08-08

数据后续可能半年左右更新一次吧,爬虫会一直跑着,以后可以做一些环比,同比之类的数据

Other

如果有更多统计建议或者相关讨论,欢迎在Issues留言