生产全国交通大数据的团队如何运作?对话交通运输部科学研究院叶劲松

百家 作者:大数据文摘 2017-07-06 05:22:43

大数据文摘作品,转载要求见文末

作者 | 薛娅菲


摘要:综合交通运输大数据应用中心的数据是如何生产的?数据如何为交通运输部提供决策支持?29个省份的数据治理体系如何搭建?基于大数据的全国高速公路公路通行数据团队搭建和业务升级。


 *本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容,转载具体要求见文末。

本篇内容还参考了2017年4月交通运输部科学研究院申报“中国数据标准化及治理奖”评审的文件《基于大数据技术的全国高速公路通行数据监测平台建设》

交通运输部科学研究院交通信息中心的数据团队负责人叶劲松是“数据团队建设全景报告”系列专访中很特殊的一位。他所在部门肩负着交通行业统计数据生产和交通运输部综合交通运输大数据应用中心数据治理的任务。不同于企业CDO或科研团队的数据骨干,他所在的数据团队统筹着全国29个省份的高速公路的车辆通行数据,他所生产数据的服务对象是交通运输部。而他对数据和数据团队的理解,也从一开始就基于一个相对更宏观的角度。

“我发现自从大数据这个概念热了起来,我们部门的角色就发生了变化,现在不管是谁在数据应用方面有了什么问题,不论是大数据的技术问题,还是数据治理的方法,甚至业务应用方面的问题,都会来找数据部门”叶劲松说。

从我们的沟通中感觉到,他更像是整个部门的“产品经理”。全国高速公路收费管理涉及的29个省,他需要跟每个省的2-3个部门打交道。还需要对接数据分析部门和交通运输部的数据需求,并精确地拆解任务,组织团队完成各项工作。“‘十三五’规划给我们的工作提出了更加明确的要求——依托大数据技术进一步推进统计信息管理系统与业务管理系统的互联互通与标准化,在此基础上加强数据资源的关联分析和融合利用,提升行业决策支持的能力”,叶劲松说道。

数据是给交通运输部提供决策支持的,不能有丝毫懈怠

交通运行动态数据反映着交通经济运行的情况,进而反映了国内行业经济运行态势。在大数据时代,主管部门对交通数据有着明确的要求:“交通运输行业管理部门需要更加紧密的跟踪行业的发展动态,准确把握行业发展的阶段特征与新动向、新问题,为行业宏观管理决策提供科学依据,研判国家经济运行态势提供支撑。”

叶劲松所在的交通信息中心(以下简称“中心”)肩负着整个交通行业统计数据的采集、处理、分析和发布的工作,必须保证数据的精准、及时。以高速公路通行数据为例:

  • 交通运输管理部门,需要高速公路运行数据作为路网运行监测的依据;

  • 交通运输部,需要全国高速公路的车流量、货运量等数据为行业管理决策提供支撑;

  • 国务院有关部门,需要高速公路货运量数据作为宏观经济发展态势的参考;

从叶劲松2005年进入交通运输部科学研究院工作以来,他经历了行业数据治理的三次革新。

第一个阶段是行业统计数据的治理,交通运输部定期采集和处理各省的交通统计数据,包括公路、航道等基础设施的现状、新改建的情况、投资情况,港口生产、运输生产的情况等,统计数据大多是按月度或年度变化的汇总数据。

第二阶段从2013年左右开始,数据治理对象变为行业运行的动态监测信息,以高速公路通行数据为例,监测数据粒度精确到每一辆在高速公路上行驶车辆的进出位置、行驶路程、车型等业务明细信息,数据更新频率也缩短为旬度,接下来还将实现数据的实时更新。

第三个阶段,接下来交通运输部要建设综合交通运输大数据应用中心,具体工作将由交通信息中心来承担,将实现交通运输部所掌握的公路、水路、道路运输等44类交通数据资源的采集与汇聚。

图一:交通运输部科学研究院交通信息中心的数据治理的变革

面对不断升级的数据需求,叶劲松坦言,他和团队经历了从传统的统计工作到大数据平台搭建、数据收集存储和标准化建设等一系列挑战。

参差不齐的29省数据,如何挑战高难度的数据工作?

“以前交通运输部对高速公路通行数据的要求是月度更新。我们以前的做法是每个月初采集一次,然后花10天左右做数据清洗、处理和统计工作,每月中、下旬再向交通运输部提供数据结果。整个工作流程大约十五天”叶劲松解释道,“但现在交通运输部对我们的要求是每月5号提交报告,数据还不能有一点错误,我们必须实现数据实时采集才有可能完成任务。”

从2013年开始,交通信息中心开始了“基于大数据技术的全国高速公路通行数据监测平台”建设工作。这个平台的数据流动路径是自下而上的,由各省高速公路管理部门、省交通运输管理部门逐级上报到交通信息中心的数据团队。

“难,太难了!”叶劲松直言。当时各省数据建设情况差异极大,因为当时每个省都是根据自己信息化基础建设的信息系统,没有统一的标准。有些信息化工作做得好的省,数据采集的技术方案可以直接跟平台的数据需求对接上。有些数据采集差的省,情况非常不乐观:“当我们发现交通运输部开始要数据了,地方上有些省还没有采集到这些数据。我们的工作不得不从技术标准化和数据标准化建设开始做起。”

图二:全国高速公路数据平台搭建的沟通工作框架

以车牌号为例。有些省的车牌号数据是人工输入车牌号的后3位;有些省只采集了车牌号码;有些省采集了车牌号码和颜色。由于识别系统的限制,图像识别的精确度也不一样,比如把数字“7”识别成数字“1”。不同的省对免收通行费的车辆定义不同,也就是说每个省的数据字典也不同。要治理车牌数据并做标准交通信息中心的数据团队面对的是全国29个省和每个省3个部门的工作量,他们需要分别与省级交通运输厅、各地区高速公路联网收费中心和各地区高速公路管理单位做沟通、推进标准化工作。

这项工作对于数据团队来说,非常考验其沟通和协调能力。为了实现数据标准化的目标,数据团队研究提出了一套标准的数据存储、清洗、挖掘分析关键数据处理技术及整体解决方案,并组织了多场针对各省数据技术人员的业务交流,有效促进了方案的推广。为了确保方案执行,数据团队建立了数据反馈机制和考核机制:

——对每一个字段制定数据审核规则,将数据定为“正确数据”,“错误数据”两种类型,并将数据审核结果反馈给各省核实或调整数据接口。

——从数据时效性、数据质量、数据字典规范性等角度对各省工作进行打分、通报,促进各省不断改进工作。

图三:全国高速公路数据平台搭建的总体业务流程

截止到2017年3月,平台终于实现了29个省高速公路通行量数据的收集和存储。2017 年6 月,该平台上的高速公路通行数据的数据量已超过280 亿条,总容量约7TB,每月新增数据约8亿条数据。

以业务的需求去建设数据团队,按照数据流程分工

“整个团队不是从数据流程划分的,而是业务驱动。我们首要的任务是完成业务目标”,叶劲松表示。以业务的需求去建设数据团队,是交通信息中心数据团队搭建的总体思路。目前该中心的总人数约90人,60人是直接接触数据的。其中负责高速公路通行数据的是一个约10人的数据团队。“不过在分行业的小团队内部,这10人按照数据流程来分工”。 

高速公路数据团队的内部分工是:2-3人偏业务,负责对接各省的数据部门,对接各省的数据需求、数据变化情况和上报情况;2人偏技术,负责数据采集系统的维护;2-3人偏分析,负责数据挖掘和分析并撰写报告;1人偏管理,负责数据治理方案和整个工作的统筹协调。“我们的工作不只是停留在采集数据,最后还要把数据用起来才有价值。”叶劲松说。基于这样合理的工作流程,我们在交通行业内首次将大数据直接用于行业统计业务,支撑交通运输部实现了利用行政业务记录直接转化生成统计数据的重大创新。

数据团队负责人的角色也是“产品经理”

交通信息中心的数据管理工作是为业务服务的,因此叶劲松的很多工作是对接下游对数据的需求。“很多时候我有意识地提醒自己:必须在工作中强势一些。因为夹在技术团队和业务需要中间不好做啊!”他在团队中作用是CDO+“产品经理”。一方面他要充分理解业务对数据产品的需求,另一方面他需要准确地把业务需求“翻译”成对数据技术团队的需求,同时,还要把技术团队的诉求用业务的语言跟业务人员沟通。

有些时候,业务团队不理解数据采集和技术处理的过程,所以对数据生产时间的要求非常高:“不就是把数据存到库里就行了吗?”。这时就是叶劲松的强势时刻:“我需要解释为了实现这个需求,数据团队需要先摸清数据的现状、那么多省的数据还都不一样需要规范、这些数据不是那样简单的直接就能够放在一起的、还需要写算法、还需要硬件资源的支撑……。很多时候,领导不关心数据是怎么来的,反而对结果期望很高。”上文的数据标准化工作就是个例子,大组织中的数据工作有时是需要从标准化做起的,会非常耗时、耗资源。“如果我不站出来定义好工作要求和时限,我的团队恐怕会面临非常大的压力。”

“懂业务又懂数据的人才太缺乏了!!”当被问到他的数据团队怎样升级,叶劲松脱口而出。在他看来,为了实现更好的管理,需要建立一直合理的数据团队,在团队里培养更多的产品经理和数据科学家:“数据在我们手上,下面我们要探索如何使用好,我需要专人去思考技术平台怎么完善?数据采集方案怎么设计?怎么跟分析部门做好对接?从哪些角度去推进数据应用?怎么去把数据治理的工作很好的进行总结提炼以得到认可”对于人才,叶劲松有如下期待:

1.    数据相关专业基本功;

2.    对数据技术的不断更迭的关注和学习;

3.    有真实的数据科学的实践经验。

其中,叶劲松认为第三点最为重要:“在我面试的过程中,如果一个学生前两点很强,第三点不突出,这样的人我不敢用。因为会一些编程语言并不代表他拥有数据思维。学生在学校的毕业设计也与实际的产业数据情况相差很远。那些只会做算法的学生毕业后会发现在业界大量的数据工作还停留在数据治理和清洗上,那时他们的心理落差恐怕会很大”相反,“如果这个学生前两点偏弱,但实践经验非常突出,我认为这样的人才是可以吸纳并培养的。”

简介:

叶劲松:高级工程师,交通运输部科学研究院交通信息中心系统开发部副主任,主要负责交通大数据技术研究和应用、全国高速公路通行大数据的采集和分析等工作。


交通运输部科学研究院交通信息中心:交通运输部科学研究院的二级机构,成立于2001年,主要业务领域包括统计信息服务、交通统计技术研究、交通政策与经济运行分析研究、交通信息系统研发、交通发展规划与评价研究等,具体承担交通运输部综合交通运输大数据应用中心的建设任务,已在交通大数据技术研发与应用、交通运输统计信息与经济运行分析、交通信息化建设等方面形成了中心特色的优势研究领域。

数据驱动时代,数据团队作为一家公司的核心竞争力所在,正在受到越来越多关注,行业、公司间数据化程度的你追我赶,也俨然一场数据军备竞赛。目前,相对公司中的财务、运营等已经规模化的组成,数据团队还是不少公司可有可无的部分,即使是一些已经建立了独立数据团队的公司,其运作方式以及与其他团队的协作仍然处于探索阶段。 

我的公司是否需要有独立的数据团队?

我该何时、怎么样建设自己的数据团队?

数据团队的价值如何衡量?

数据团队需要具备哪些技能和知识?


为了探索海内外数据团队建设现状,我们发起针对数据行业从业团队和数据人才的调研而产生的结论性、趋势性的《顶级数据团队建设全景报告》。《报告》历时3个月,囊括十余位海内外业界大咖深度访谈、五万余条海内外网络数据分析和千余份调查问卷内容而成。我们将在7月11日重磅发布调研结果。发布会当日,除了报告完整版发布,还将邀请业界与学界多位重磅嘉宾,共话数据团队建设的心得与数据人才培养方案。本次调研将对国内外数据团队发展现状进行盘点和趋势预测,同时探索数据团队应如何建设。



时间:7月11日 下午13:30-17:00

地点:清华大学FIT楼多功能厅

草拟议程:

13:30-14:00 来宾签到

14:00-14:05 主持人开场并介绍来宾

14:05-14:15 领导致辞:数据科学研究院执行副院长 韩亦舜 

14:15-14:30 报告发布:顶级数据团队建设全景报告 大数据文摘创始人 汪德诚

14:30-14:50 Keynote:猎聘 CDO 单艺,大数据人才现状解读

14:50-15:10 Keynote:GrowingIO CEO&创始人 张溪梦,数据团队建设的实践(拟邀)

15:10-16:30 高端对话:数据人才和数据团队打造 

数据科学研究院副院长 王建民(拟邀)

GrowingIO CEO&创始人 张溪梦(拟邀)

猎聘 CDO 单艺

交通运输部科学研究院 叶劲松

北京邮电大学移动互联网开放创新实验室副主任谭茗洲

《数据团队建设全景报告》系列专访往期回顾:


对话猎聘CDO单艺:数据人才困局还需要大数据应对

【独家专访】揭秘LinkedIn总部数据科学战队:技术强者常有,顶级团队胜在软实力

【独家专访】微软郑宇:这个时代不缺数据,缺的是开放的思维

对话Capital One纽约总部数据中心负责人:构建中央数据团队与业务部门的良性生态



我的公司是否需要有独立的数据团队?

我该何时、怎么样建设自己的数据团队?

数据团队的价值如何衡量?

数据团队需要具备哪些技能和知识? 


《数据团队建设全景报告》系列专访


数据驱动时代,数据团队作为一家公司的核心竞争力所在,正在受到越来越多高管、从业者和投资人的关注。而目前,相对公司中的财务、运营等已经规模化的组成,数据团队还是不少公司可有可无的部分,即使是一些已经建立了独立数据团队的公司,其运作方式以及与其他团队的协作仍然处于探索阶段。

 

为了探索数据团队建设现状,清华-青岛数据科学研究院联合大数据文摘,发起了一次数据团队全行业调研。本次调研将对国内外数据团队发展现状进行盘点和趋势预测,同时探索数据团队应如何建设。我们将结合一系列专访与调查问卷内容,在7月初发布《数据团队建设全景报告》。


联系邮箱:zz@bigdatadigest.cn




关于转载


如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

往期精彩文章

点击图片阅读

百度开发者大会发AI生态全图:李彦宏陆奇火力全开,要做AI时代的安卓

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接