数据治理分析项目详解

发布时间:2019-09-06 16:58:06 来源: 本站 浏览次数:91

技术快速发展的时代,大数据、云计算、人工智能都是当前企业在信息化建设高级阶段所要了解并融入的技术手段,数据分析是各行业企业决策分析、风险管控、精准营销的必备工作。做好调研分析、明确数据来源、数据质量管控、工作辅助支撑、个性建模分析一步都不能少。


作者赵爽|来源:数通畅联


数据分析存在意义

在技术的推动下,大数据已经成功应用到一些行业之中,并发挥着重要的作用,创造着大量的价值,意义深重。每个公司经营中都会产生大量的业务数据,这些数据表面上毫无关联,但彼此之间存在深层次的关系,数据价值发挥与否就看是否能将这些数据进行联动。

  1. 反应客观事实:数据分析通过对数据的采集、分析、展现,对事实更加客观、真实、完整的反应,避免主观臆断产生的偏差。

  2. 预测未来事件:通过预测分析算法,使分析结果具有预测意义,使管理者可以根据分析结果对未来即将发生的事情做出预判。

  3. 监督管理考核:对企业运营过程中产生的数据进行汇总、统计、分析,对整体和各部门运营状况进行了解掌控,起到监督考核的作用。

  4. 支撑决议计划:经过数据分析,可以根据成果辅助对公司内部各项活动的决议计划顺利开展。

数据分析建设步骤

数据分析实现过程中,技术人员首先需要了解客户的业务背景、实际需求,详细评估分析需求,之后对构成分析需要的数据进行收集、处理,这些准备完成后基于工具建立分析模型,分析计算后基于配置实现数据分析结果展现。


1需求调研

数据分析工作中,需求调研是重要的一环,明确数据分析的目的、需求,才能确保数据分析工作有效的向下开展,为后续数据采集、处理、分析工作提供清晰明确的方向。本阶段需要重点与客户各部门进行充分沟通、理解业务规则、明确需求痛点、确定分析主题,并通过多种方式让客户确认项目的重点实现问题、分析范围与内容、展现成果等。调研过程中可以结合案例及演示为客户讲解并确认最终要的展示效果,以最直接的方式避免歧义的产生。

2数据采集

数据采集主要根据需要分析的主题来对应采集相关的数据,为数据分析提供依据,数据分析的来源具有很多种,包括公司内部的系统数据、手工数据、公司外部的产业上下游数据、国计民生、社交数据等,根据不同的数据来源需要采用对应的采集工具及手段,保证分析数据的可用性、全面性。

  • 系统数据采集

对于企业内部各系统中已经存在的数据,可以直接通过数据总线在数据分析过程中与对应的系统对接,将现有分析的数据注册为数据源,根据分析模型的需要配置、拉取、计算、转换,实现分析模型的数据支撑。

  • 线下数据采集

每个企业信息化建设程度不同,不是所有产生的业务数据均为系统提供,很多时候线下手工数据也是数据分析的数据源之一,通常采用数据填报系统作为管理数据录入的重要工具,通过填报系统快速配置数据填报表单,实现数据的填写、修改,查看。

  • 外部数据采集

外部数据也是数据分析中重要的数据源,例如互联网数据、市场调研数据、国计民生数据等,可以通过爬虫、网络抓取、平台合作或购买数据等方式获取行业、产业等外部渠道的数据,与企业自身进行对标比较,掌握行业的大方向的动态数据。


3数据处理

数据处理的过程也相当于对构建数仓能力蓝图进行完善,是数据分析前必不可少的阶段,数据处理主要包括数据治理/清洗、数据转化、数据合并等内容,实现将来源不同、类型不同的抽取出来的数据,进行清洗、转换、合并、存储等操作,以保证后续数仓建设、数据建模、分析配置、展现等顺利实施。


640.webp (25).jpg

  • 数据清洗

支撑数据分析的业务系统各自为政,由不同系统厂商、机构、业务部门分管使用,不具备完善的数据质量管理机制,在系统中难免出现异常数据。对于异常数据需要进行质量管理,以纠正问题数据,填补缺失数据,完善数据结构,保证数据的统一性、唯一性、准确性。

  • 数据转换

在数据分析项目中,很多时候采集到的业务数据并不能直接使用于分析配置,因为不是所有数据都能够达到数据分析模型输入数据的格式要求,这时需要对这些数据进行一些处理,也叫预处理,使这些数据标准化,常见的解决方式为数据转换。

  • 数据整合

数据整合也叫做数据合并,是指综合数据表中某几个字段的信息或不同的记录数据,组合成一个新字段、新记录数据,使数据按照不同的业务主题进行重组存储,完成对分散数据的整合工作,形成企业内部的唯一数据。数据整合工作主要有两种方式,一种为字段合并,另一种为记录合并。


4数据汇聚

数据分析过程中一个重要的步骤就是将企业的业务数据汇聚,是一个数据重整的过程,即构建大数据平台的存储与计算中心完成数据的汇聚,与企业搭建内部的数据仓库或数据中心结合,根据数据的不同数据特征,从多样的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,通过数据分析算法,进行数据统计分析、实时流处理,机器学习和图计算等。

640.webp (26).jpg

  • 数据存储

数据存储部分通过建立数据仓库,在数据分析与决策支持等方面为用户或机器学习提供服务,将采集及处理后生成的数据集持久化到计算机中,然而这里的数据仓库技术并不是传统BI商业智能所用到的简单的关系型数据库,而是可以支持大数据量、高实时性的数据分析场景。

  • 数据建模

数据建模即数据分析建模,通过建立数据分析模型,并对之进行配置、分组管理等操作找到潜藏在数据下面的客观规律,挖掘数据中的真正价值,得到想要的分析结果。技术上通常需要对立方体和数据集进行配置,立方体配置支持三维、多维立方体,同时立方体与数据集之间可以相互转换;数据集配置可以根据选择定义自动生成对应的数据集模型,如:SQL原生数据集、接口定义数据集,Schema&Cube转换生成数据集等。

  • 计算分析

数据计算即对数据进行处理分析,包括对相关数据集的数据进行排序、归集,执行机器学习算法、实时流处理、分析预测等。在项目中需要根据用户具体的业务需求选择适合的算法,常见的算法包括回归、分类、聚类、关联规则挖掘、时间序列、描述性统计、神经网络等,用于实现对企业内外部数据的深度挖掘、特征提取、行为分析、轨迹预测等。


5配置展现

配置展现部分主要为相关主题模型的配置以及主题分析效果的展现,即选定分析工具之后,对展现哪些数据、以什么样式的图表形式展现进行实现,选择分析模型以及相应的数据,与组件结合形成组件实例,实现数据分析。

  • 分析配置

分析配置主要对数据分析整体布局的样式进行配置,包括导航配置、菜单配置、页面配置等,通过导航菜单配置对应的导航,每个导航能够通过选择主题、配置整体的布局样式,满足领导层级与各部门层级的不同的分析需求;通过页面配置对主题进行管理,包括分析页面整体样式、页面大小、展现方式、背景颜色等,同时可以支持移动端自适应显示,配置后将计算汇总的结果用图形化或表格形式展现。

  • 分析展现

通过多维分析技术实现多维度、多角度、全方位的实时在线分析,包括数据的切片、切块、聚合、钻取、行列转置、钻取联动、层层穿透等多种分析样式,帮助管理者全局性掌握公司运营现状。在数据的配置及交互方面针对用户操作方式,模拟用户分析习惯,提供针对性的交互服务。数据展现部分提供多样化、丰富化的展现方式,包括但不限于饼图、柱状图、折线图、气泡图、面积图、省份地图、词云、瀑布图、漏斗图等酷炫图表。


< 上一条:国务院国资委与上海市政府签署深化合作共同推进落实国家战略合作框架协议