欢迎访问 中国直播网!遇见美好,记录事实!Meet the good, record the facts!

中国直播网微博  直播网微博   网站地图   商标版权注册证   直播号入驻

都变成了数据公司:但你真的了解什么是“数据工程师”吗?

2017-01-12 15:09来源:编辑:轩皓宇
在和国内外顶尖公司交流的过程中,我发现他们多数都很骄傲有一支极其专业的数据团队。这些公司花了大量的时间和精力把数据工程这件事情做到了极致,有不小规模的工程师团队,开源了大量数据技术。Linkedin 有 kafka、samza, Facebook 有 hive、presto,Airbnb有airflow、superset,我所熟悉的 Yelp 也有 mrjob…… 这些公司在数据领域的精益求精,为后来的大步前进奠定了基石。

今天推荐的这篇文章《美国数据工程现状》,从多个维度阐释了数据工程和数据工程师在美国的发展状况。或许你和我一样,都会有一些意想不到的发现。

我常觉得数据工程之于企业的意义,就好像马斯洛需求理论之于人的意义,从低到高进阶满足,企业对于数据工程的应用应该遵循这个三角原则。

第一层,企业要注意到公司发展过程中,最普世最基础的需求:即让数据可见可得。这需要我们重视数据工程这件事,中国直播网 ,这是企业做大做强安身立命的根本。

第二层,进阶需求。有了数据意识,招来了数据工程师中国直播网,拉开架势开始干吧。这时候企业就需要开始从语义(semantic)的角度去理解跑起来的数据流了。实现从数据到企业战略指导再回到数据。

第三层,是目前看起来最接近塔尖也是最高级的需求:即建模、更完善的预测性算法、更漂亮的数据可视化、深度学习、AI 等等……

这些更高级的更贴近金字塔尖,也是现在创业的风口。我偶尔也会被风吹的精神抖擞,但吹完风,静下来想想,一个企业没有好的数据工程、数据基础架构逻辑、没有构建数据流的能力,这些金塔尖上的需求是非常难被满足的,很难取得好的结果,也无法实现真正的价值。

是的,我又被风打下来了,开始站在地上思考问题了。

当然,对于创业公司来说,打造完整的数据工程、严密数据架构、高效的数据流是件 “正确但不容易的事情”。不好做、效果不直观,但很重要。

最后,我想引用 Kafka 技术的缔造者 (Kafka,被誉为 LinkedIn 的 “中枢神经系统”)、现 Confluent 的 CEO Jay Kreps 的一句话:

Without a reliable and complete data flow, a Hadoop cluster is little more than a very expensive and difficult-to-assemble space heater。

如果你的公司没有一个完整可靠的数据流,那么你的 Hadoop 集群其实就像非常贵而且很难组装的暖气片而已。

正文如下:

目前,LinkedIn 上有 6500 人称自己是数据工程师。而仅在旧金山,就有 6600 个这样的工作机会虚位以待。去年,数据工程师的数量翻了一倍,但工程主管们却仍觉得人才匮乏。

数据人才的旺盛需求源自一个根本性的变化:科技公司现如今都成了数据公司

像 Uber、Airbnb、Spotify 这些公司都在大力发展数据产品,结果便造成数据系统开发和维护人才的激烈争夺。

Josh Wills 是 Slack 的数据工程师,在 2016 数据工程大会(DataEngConf 2016)上半开玩笑地说:“我的数据工程师都在会场了,请你们别挖墙角。” 即使 Slack 这样当红的硅谷企业,也在担忧如何留住这些宝贵人才。

我们的研究着重于说明以下几个方面:

目前市场上数据工程师的数量;
数据工程师的背景和核心技能 —— 这些信息对于主管们研究如何将软件工程转换至数据工程特别有用(编者按:以缓解招聘数据工程师的压力);
数据工程师的就业信息 —— 帮助你说明为什么要投资(时间/精力/金钱)到这项昂贵的技能中来。

从 Stripe、MIT、Looker 的工程主管对数据人才的发现、留任和对数据工程师团队项目的开发等一系列策略的分享中,我们找到了这些问题的答案,使得这份报告清晰地呈现出数据工程的现状。

关键指标:

人数:6500 人在 LinkedIn (领英)上称自己是数据工程师。
发展:2013 到 2015 年,数据工程师的数量至少翻了一倍。
分布:50% 的数据工程师都在美国。
之前的职务:42% 的数据工程师都是软件工程出身。
产业:数据工程师主要供职于信息科技与服务产业。
技能:数据工程师前 5 项主要技能是:SQL、Java、Python、Hadoop和Linux。R语言甚至都没进前 20。

分析方法:

本报告基于 Linkedin 上的用户资料,包括所有公开可见的个人及公司档案、技能与工作经验,数据以 2016 年 3 月份的统计为准。

我们根据档案上的职业标题和头衔识别出数据工程师,这里只纳入了那些可确认公司的数据工程师档案。

 

\

 

图表:LinkedIn 个人档案总结

截止 2016 年 3 月 1 日,Linkedin 上的个人档案大约 4.3 亿,此次参考了 2.6 亿例档案,其中列有至少一项经历的近 1.9 亿, 有一项已认证经历的超过 1 亿,当前经历已认证的近 8000 多万。

在这些数据工程师中,我们分析了:

3 万项工作经验
8.2 万条个人经历
3400 个公司

分析工具:

分析采用 Python、SQL 和 Jupyter。
HighCharts 和 HighMaps 中的交互式可视化效果采用 Python 的制图包和 Python-highchairs 实现。
数据采用 AWS Redshift 进行存储和处理。

特别声明:本文为中国直播网直播号作者或机构上传并发布,仅代表该作者或机构观点,不代表中国直播网的观点或立场,中国直播网仅提供信息发布平台。
       版权声明:版权归著作权人,转载仅限于传递更多信息,如来源标注错误侵害了您的权利,请来邮件通知删除,一起成长谢谢
       欢迎加入:直播号,开启无限创作!一个敢纰漏真实事件,说真话的创作分享平台,一个原则:只要真实,不怕事大,有线索就报料吧!申请直播号请用电脑访问https://zbh.zhibotv.com.cn。    

标签:
相关资讯
热门频道

热门标签

CopyRight 2014-2024 中国直播网(直播网)ZhiBoTv.Com.Cn(中國直播網有限公司)| 本站取得授权享有第17448205号“直播网”商标注册证 | 中国直播网投稿公邮:news@newsgo.com

直播网网站所登载资讯、图集、视频等内容,版权归直播号自媒体平台原作者或投稿人所有,投稿视为本站原创首发,刊发或转载仅限传播目的非本网观点,未经授权请勿转载或商业用途。

特别声明:中国直播网仅提供平台运营服务,不提供任何上传发布服务,中国直播网尊重知识产权保护,侵权反馈:fawu@newsgo.com 直播网撤稿函下载 如有侵权请来邮告知,我们收到后会尽快处理答复。 Powered by EyouCms 备案号:吉ICP备2023004346号-1