仿佛在一夜之间,大数据(big data)出现在众人的视线中。
然而,大数据其实很早就已被人提及,在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。直到2009年,大数据才开始流行,展现出其独特的魅力,而这不得不归功于信息化浪潮。如果地球仍然相对闭塞,如果互联网不存在,信息传输并不快,如果每天产生的数据、资讯及其有限,那么,大数据只不过是在地底的资源,无人发现。但这些如果已经不存在了,在这万物互联的世界里,它正在源源不断地为我们创造价值。
什么是大数据?在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据被定义为不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理,并指出大数据具有5v特点:volume(大量)、velocity(高速)、variety(多样)、value(价值)、veracity(真实性)。
大量:无时无刻不在产生数据,单个数据并不能产生价值,量变才能形成质变。
高速:处理速度高,数据实时、在线。
多样:数据产生的类型具有多样性,如文字、数字、符号等,数据产生的渠道多。
价值:通过对大量数据的分析及应用,能给我们的生活带来价值。
真实:通过高科技采集的数据,没有作假成分。
大数据的优势众所周知,国家和政府也在不断推动行业大数据应用,打造企业新常态新格局。据中国信息通信研究院推出的《中国大数据发展调查报告(2018)》指出,接近⅔的企业已经成立相关的数据分析部门,近四成企业已应用了大数据,近六成企业在大数据领域的投入持续增加,大数据应用帮助企业实现了智能决策、提高了运行效率和风险管理能力。
大数据主流实现方案
大数据技术描述了一种新一代的技术和架构,用于以很经济的方式、高效的捕获、发现和分析技术,从各种超大规模的数据中提取价值。随着大数据研究浪潮的冲击,市面上涌现了一批大数据技术平台,如apache的hadoop大数据平台社区版、ibm的infosphere biginsights、emc的pivotal hd等。
apache大数据平台是在apache的开源项目基础上搭建的,解决了目前海量数据的采集、存储、编程、分析等问题。商业大数据平台都是在apache hadoop的基础上进行扩展的。
ibm infosphere biginsights是基于开源apache hadoop的框架实现的。在此框架上增加了ibm独特的技术优势,如管理能力、工作流、安全管理,并融入ibm独特和领先的数据分析、机器学习技术以及文本数据分析挖掘。
pivotal hd是emc greenplum最新的hadoop发行版本,在apache hadoop2.0版本基础上,开发了高级数据库服务、数据挖掘分析、自动化配置和部署、统一监控管理、spring编程框架等功能,让hadoop成为真正容易使用、性能强大的高级分析系统,是目前业界最强大的企业级hadoop版本。
燃气企业数据应用的挑战
当金融、交通、医疗等领域都已经步入大数据运用的“深水区”了,燃气企业许多业务模式还处于人工作业中,并且业务断层严重。随着物联网技术的发展,燃气企业每日产生海量的数据,客户信息、用气情况、管网状态等,已经成为燃气企业宝贵的财富,需要对其进行深度的挖掘和分析。
当前,燃气企业数据应用存在以下挑战:
1、 信息系统分散,形成信息孤岛
企业在信息化过程中,建立了多个业务系统或模块,业务数据分散在不同的系统中,业务数据得不到有效地整合,数据查询和分析难度大、速度慢。
2、 系统不能及时提炼有用信息
业务系统不能按照公司需求自动及时汇总数据,需要进行手工调整,工作量大、易出错、效率低,不能满足管理层和业务部门的需求。
3、 缺乏综合分析,结果展示不直观
主要通过定制各类报表进行业务分析,报表繁多,报表之间缺乏关联;缺乏综合深入分析,不能直观地展示分析结果,不能通过模型进行业务预警和预测。
4、 机器学习和大数据新应用
如何利用燃气历史数据及其他相关数据的分析,运用最先进的机器学习算法进行深度学习,找到隐藏在数据后的规律,进行燃气用气预测、异常分析等应用,成为燃气企业亟待探索的领域。
金卡智能集团积极探索大数据在燃气行业的深度应用,包括数据采集、聚合、分析,各系统数据打通,数据可视化展示,利用数据为企业、百姓带来价值。
金卡智能大数据体系
金卡智能燃气大数据平台定位于it架构的底层基础设施,将承担数据存储中心、数据计算中心、数据分析中心、数据服务中心等职能,同时提供在线生产数据存储能力,面向普通用户、开发人员、上层业务系统等层面,提供围绕数据开展的存储、处理、共享、分析计算、通用分析模型算法、可视化组件的相关服务。
1、 业务架构
大数据分析平台的数据分析处理经过数据采集、数据管理、数据计算、业务应用四个阶段。因此大数据分析平台业务架构也相应地按照四个层面进行设计。
在数据收集层,应该明确现有数据来源,通过分析各个数据源的数据内容、数据格式、数据频度等各方面特征,选择相应的数据接口技术,确保原始数据资源的完整获取和充分利用。在数据管理层,根据接入数据类型和数据体量,从数据模型和存储结构入手,采用分布式存储方式、建立统一的数据模型和交互规范,确保大数据平台内部各模块之间以及与外部系统之间数据的高效流通,实现数据集成管理。数据计算是开销最大的阶段,在该层面引入实时计算、批量计算和流计算的混合计算体系架构,根据多源数据的结构特性及应用需求进行计算任务的分解,充分体现大数据计算体系的柔性特征,在此基础上实现等大数据分析算法和工具,为业务应用开发提供技术支撑。数据应用层包括基于数据分析工具的应用模型库。同时包含多样的可视化手段,能够为用户呈现直观清晰的分析结果。
业务架构如下:
2、 应用架构
大数据分析平台应用架构主要包括三个部分,业务系统集成、数据挖掘平台和业务分析。业务分析主要包括了生产过程监控、燃气产供销分析、客户分析、营销分析和服务质量、客户群定位分析和营业普遍性问题分析等覆盖燃气企业数据领域。数据挖掘平台通过数据集成工具把生产、营销、调度等基础数据汇集到平台,通过数据集成工具把相关数据汇集到平台,形成统一的数据应用分析平台。
应用架构如下:
3、 技术架构
大数据分析平台技术架构在数据存储上采用分布式存储技术,在应用开发和部署上以j2ee架构为基础。通过大数据基础平台对海量数据进行智能分析和收集,通过分布式缓存技术、分布式存储技术对数据进行存储、分析、统计。
平台基于缓存开源技术,实现多类别的数据结构以及功能丰富的支持。
平台技术架构图如下所示:
大数据分析平台首先着眼于本集团公司自有业务的数据集成分析。包括居民和工商智能表具(ic卡表,nb-iot、lorawan、gprs等通讯方式,涡轮、罗茨、热式、超声波等计量方式)的生产、销售分析,通过对企业自有生产系统及云服务平台数据进行监控及经营分析:
● 掌握智能表具的销售分析及市场需求情况,以及各销售客户的订单需求情况。
● 做到对智能表具运行情况(如电压稳定性、通讯稳定性、计量准确性、批次故障率、抄表成功率等)的深入数据分析,从而有效的帮助产品质量。
● 分析终端燃气用户(智能表具用户)的用气消费情况,帮助燃气企业分析某一区域或单一用户的用气行为及用气趋势,帮助企业在增值服务、价格设定参考、用户画像等方面提供数据及分析依据。
同时,大数据分析平台在技术预研及研发阶段,充分考虑燃气企业不同业务系统的管理目标及基础数据,旨在创建一个和谐的信息纵横互联、业务有效整合的综合运营分析模式,可以显著的提高燃气企业的运营和分析管理水平,促进企业能够更加健康、稳定、有序的发展。
基于大数据平台,把燃气企业的专题业务数据,例如营收、客服、scada、erp、巡检、企业管理等及时的更新到大数据分析平台,并由运营中心对所有的信息进行集成管理,对各种业务进行综合分析,实现燃气公司对各部门的统一监管和调度,以此保证各个业务部门能够健康、稳定、可持续的运营。通过大数据分析平台实现企业综合运营数据分析平台,实现燃气企业对多源燃气信息的集成管理以及共享,同时实现多个燃气业务的统一运行,更加合理的调度和使用各种资源,保证燃气行业始终处于最佳运营状态。
通过整合企业数据,搭建统一数据平台,实现企业数据集中管控与共享,为企业经营信息提炼提供数据基础。提供企业场站、工商户生产数据监控、采购、销气等数据的监控和分析,提供企业数据的跨业务、跨系统、跨年度的全面分析,同时,提供穿透钻取分析,逐层分析问题产生的原因,直击问题根源。实现对企业的运营状况的实时监控分析,对企业运营异常情况进行预警,便于企业及时发现问题,解决问题。同时提供简单、灵活、易用的分析平台,业务人员即能根据企业管理需求的变化,灵活定制分析报表,以适应企业变革。