今日分享《平台型数据产品经理能力体系》,带大家了解大数据时代平台型数据产品经理需要具备的能力和知识。主要围绕以下四点来展开讨论:
1.大数据的历史与未来
2.认识平台型数据产品经理
3.平台型数据产品经理的核心能力
4.离线数仓构建流程
平台型数据产品经理的能力体系涉及内容繁多,但是篇幅有限,所以许多内容不会展开去讲,本文重点讲解整体的能力体系框架,以及其中关键的部分。
--
分享嘉宾|张朋威帆软软件高级产品经理
编辑整理|李本培中地数码
出品社区|DataFun
第一个趋势是批处理到近实时处理。随着时代的发展,企业对实时性要求越来越高,比如电商类销售和监控的场景,需要建立近乎实时的数据仓库,有利于分析最新数据并加快决策速度。
第二个是智能化的方向。即引入人工智能的方式去进行数据治理,通过这种方式去解决传统数据治理等过程中响应速度慢,开发成本高等问题。
第三个是开源产品到商业化产品。时至今日,大数据开源产品依然是国内许多企业开发数据平台的技术选型。但开源产品使用门槛比较高,维护服务对企业不够友好。未来商业化产品会逐步在许多场景下替代开源产品,尤其是对于需求不太复杂的中小型企业。
1.数据产品是什么
数据产品用来降低用户使用数据门槛,提高数据的价值,从生产采集、存储处理、分析展示到挖掘应用的全链路,都可以称之为数据产品。进一步细分,还可以分为面向企业内部,面向用户,以及面向外部企业等类型。
2.数据产品经理是什么
数据产品经理就是负责设计、维护和优化数据产品的人。通常情况,数据产品经理分了三个方向:第一类方向是平台型数据产品经理,主要负责数据采集、清洗、存储、发布;第二类是分析应用型的产品经理,主要负责数据分析、展示及应用;第三类是策略算法型,主要集中在数据挖掘应用环节,聚焦于探索、推荐、风控的数据策略和模型部分。
平台型数据产品经理能力树如下,可以总结梳理为3大类11个技能点。
1.通用能力
平台型数据产品经理首先需要具备产品经理所具备的一些技术能力:
一是需求洞察,在面对用户提需求的时候,要了解用户遇到的问题,需要解决哪些问题,了解需求产生的背景以及目的,从而挖掘用户最本质的需求是什么。同时,针对不同用户或者不同的需求方,能够把不同的需求进行归类分解,提炼出通用需求,并设置优先级,该能力是产品经理非常重要的一个能力。二是方案设计,在基于业务需求构思可行的方案并进行决策选择的时候,哪些方案能够满足用户真实需求,哪些方案实现成本最低,哪些方案未来长期的可维护性最高,都需要产品经理进行决策。三是项目管理能力,产品开发的每个迭代周期需要把开发计划进行拆解出不同的里程碑。通过里程碑的设计,提前进行任务排期、风险管控,从而有利于在开发过程中进行进度跟进、风险识别及处理等。以上都是产品经理需要具备的通用能力。2.专业思维
专业思维主要包括四点:
第一点是统一标准,产品经理经常会与指标打交道,在面对多类型指标时,需要达成统一标准。以增长率为例,A部门的增长率和B部门的增长率,背后的计算逻辑可能不一样,或者两个部门有两个指标,看起来计算逻辑是一样,但是名称不一样,这些都需要去考虑并完成标准统一,从而降低后续维护成本和用户使用成本。
第二点是分层设计,在进行指标拆解的时候,要遵循分层的原则,拆解出通用的指标,避免从最底层穿透到最上层直接进行数据开发。
第三点是数据共享,要能够整合、提炼出共性需求,再进行开发,在缩减开发成本的同时提高产品未来的可维护性。
第四点是价值驱动,数据的价值要以能够带来整体价值作为评估标准,面向价值的理念要贯穿需求评估、产品设计及开发应用全流程。
3.专业能力
平台型数据产品经理的专业能力和其他类型产品经理需具备的专业能力差异比较大,主要体现在四个方面:
第一个方面是技术能力,有些企业会把诸多职能放到一起作为平台型数据产品经理的岗位,例如需要做ETL开发建模相关的工作,那么对该岗位能力要求比较高。但是如果企业内这个岗位是比较细分的,例如只需要做整体需求的分析、发展规划和项目管理等工作,技术要求比较低。第二个方面是基础知识,大数据平台型数据产品经理,需要掌握大数据领域相关的知识。虽然不要求去理解每一个技术或产品背后的原理,但是这些技术产品的概念或使用逻辑需要掌握。第三方面是知识体系,在设计数仓的分层设计以及分解指标的时候,需要一套方法论(PPT中列举出来一些书籍供参考)。第四个方面是工具的使用,工具主要分为ETL工具、建模工具、数据库管理工具等(建议基于企业自身情况去进行学习使用)。接下来在各个能力项里面选一些典型的知识,做一些概述性的讲解。
4.Hadoop生态体系
掌握大数据开发需要先了解Hadoop生态,因为它是最早成熟的传统数仓开发架构,至今依然被诸多企业使用,另外Hadoop生态非常完整,当熟悉了各个产品的作用,后续再去接触其他大数据开发相关的产品,都能够快速理解其在数据开发体系中发挥的作用。
5.技术名称
接下来再分享一些基础的技术名词,如图所示:
6.工具使用
下面是几个常见的数据平台开发工具,可以基于公司采购情况和个人的情况选择学习。
7.数据平台架构
数据平台通常分离线数据平台和实时数据平台。
离线数据平台和实时数据平台的整体架构有两个明显差异点,首先,离线数据平台是定时的采集,离线的开发;另外,离线数据仓库是分层的理念,包括ODS层,汇总层、明细层、集市层等,实时数据平台没有这种分层理念。
实时数据平台显著的特点是数据实时采集,最常用的技术就是基于日志解析,它并不是直接去读取数据库的文件,而是基于数据库变更的日志去解析提取出变化的数据,然后再同步到目标端,目标端通常用消息中间件来接收,如:Kafka,再给后面的流式计算引擎应用(如Flink),最终再输出到目标端供消费。
接下来分享离线数仓构建的流程。
1.离线数仓建设两种方法
离线数仓构建有两个方法,一种是自上而下,一种是自下而上。自上而下指的是从企业整体出发,去梳理各个部门的指标、需求,然后进行统一的设计。
自上而下构建要求层次特别清晰,且遵循第三范式,避免数据冗余,优势是结构比较清晰,缺点是梳理设计开发的流程会很缓慢。自下而上特点是面向分析,面向主题,例如A部门有分析需求,就针对A部门的分析需求去建主题,去进行设计开发,B部门有分析需求,再针对B部门去做分析主题,最终不同的分析主题形成一个大的数据仓库,问题在于会有数据冗余,会出现数据孤岛等现象。如果公司层面有大量资源投入,部门之间协调推进能力比较强,可以用第一种,但如果企业需要快速的看到成效,得到结果,追求性能,可以选择第二种,通常情况下两种结合起来去用。
2.离线数仓构建流程
离线数仓构建流程分成六大步。
第一步是需求调研,需要收集业务部门的数据需求,确定数据指标、使用场景,要求平台数据产品经理,要有很好的需求理解能力;
然后基于数据需求,进行指标拆解、建立联系,明确指标计算逻辑,确保指标口径统一,并且基于指标计算逻辑,按照数据字典,找到数据库对应的表格字段。
当指标梳理好以后,就可以进行分层建模。按照提前设计好的层级去设计分层结构,整理出事实表、维度表进行逻辑模型的建立。
接下来就进入比较重要的数据开发环节,基于设计好的分层指标和计算逻辑去开发,再配置更新的逻辑,设计过程中要考虑数据的更新方式,如全量或增量更新、使用周期等。
数据开发完成后,需要进行数据校验,确保数据是准确、可用的,这样才能够支撑后面的数据分析、展示和应用。
最后API开发是针对开发的数据结果,用API的形式给发布出去。
整个环节里面,需求调研、梳理指标,分层建模是最关键的,因为这三步决定了整个数据开发的成败。
下图出了今日分享内容中涉及到的文献,感兴趣的同学可以自行查看。
Q1:平台型数据产品经理和传统产品经理的差异有哪些?
A1:主要是专业的思维和能力。传统产品经理对数仓的构建流程,以及对大数据体系的相关知识不需要掌握。但是平台型数据产品经理,就需要掌握上文介绍的专业思维和能力,这是一个很明显的差异。
Q2:数据产品的发展方向?
A2:首先是往实时方向发展。然后是智能化方向,越来越多的做数据产品公司,都在提智能化,但智能化现在还不太成熟,如果能达到成熟的阶段,会大幅降低企业投入成本。
今天的分享就到这里,谢谢大家。
学习更多大数据、人工智能方向技术干货,请关注公众号:DataFunTalk
下载大数据、人工智能方向免费资料、行业报告,请关注公众号:DataFunSummit