易联云 张海俊 徐海洋 刘苗
来源:《煤气与热力》2019年2月刊
摘要: 分析公用事业行业大数据挖掘应用存在的主要问题,介绍软件服务化(software as a service, saas) 云平台的价值,及大数据平台架构及功能特点,探讨行业大数据在客户端增值服务、智能客服、服务渠道优化,及生产运行中异常监控、用量预测、输差管理等多方位的应用场景,帮助企业更好的服务于客户,更智能的进行设备运行管理。
关键词:大数据应用 公用事业行业 saas云服务
industry big data mining application based on saas cloud service mode
abstract:analysis of major problems in the application of big data mining in public utilities,introduces the value of saas cloud service platform, and the structure and function features of big data platform,explore the optimization of industry big data in value-added services, intelligent customer service and service channels. and the application scene of abnormal monitoring, dosage forecasting and transmission error management in production operation. to help enterprises better serve customers, intelligent operation of equipment management.
key word:big data application;public utility industry;saas cloud services
公用事业行业大数据挖掘应用中的问题
“互联网 ”时代,公用事业行业面临全新的竞争挑战,企业需要把自身的特点和“互联网 ”相结合。通过“大数据”技术,可以不断提升企业工作效率并优化业务运作模式,提供更高质量的服务、创造新的增值价值增长点。公用事业企业拥有庞大的用户数据资源,可以由这些数据获得极富价值的洞见。但目前公用事业行业的大数据仍处在数据采集、存储的起步阶段,大数据价值挖掘分析只有少数尝试。
完成可行的大数据应用要建立在大量的数据累积基础上,公用事业企业大数据应用不足,除了对大数据技术的缺乏外,企业自身的信息化基础较为薄弱。
(1)缺乏统一的客户信息平台。目前公众事业行业的客户信息平台收集信息有限,数据质量不高,数据不可靠,无法为用户的行为分析提供有效的基础信息数据累计。
(2)企业内部信息系统彼此割裂,业务数据有待融合。信息化建设往往立足在各项业务自身的管理系统而忽略了系统和数据的集成,忽略了可能的关联性和融合性。
(3)缺乏统一的数据标准和服务流程。数据平台的建设标准和规范不统一,内部服务流程不统一,不能保证数据的可靠性和可用性以及各类信息系统之间的跨平台融合。
saas云平台模式下的行业大数据挖掘
2.1.saas云服务平台价值
作为公用事业行业信息化服务提供商,金卡智能旗下易联云计算(杭州)有限责任公司(以下简成易联云),通过建立行业端到端一体化saas云服务平台,将企业各系统迁移到云上,基于统一规范的服务平台,对外联接客户、员工、在线设备及j9九游会网站的合作伙伴,对内形成企业大数据。最终通过企业统一、真实、有效的数据信息,进行多方位的数据价值转化。
在大数据平台下,完成各系统和数据的集成,保障各系统间的关联性和融合性,让所有业务数据可以归结到统一的大数据业务分析中;数据平台的建设标准和规范一致,从管网的设计、实施铺设到巡检维护操作、到终端用户设备安装和收计费服务,都在企业内部各单位各部门推行统一的操作流程、规范的数据标准,确保了数据的可靠性、可用性以及各类信息系统之间的跨平台融合;统一云服务平台中,有效采集汇总用户基础信息数据,并在此基础上实现用户数据分析,为用户的行为分析提供有效基础信息数据累计。
2.2.易联云大数据平台架构
2.2.1.大数据平台架构图
易联云大数据平台以华为基础服务为支撑,基于分布式计算、存储框架,面向公共事业不同价值的数据源,通过集成、存储、建模、分析、挖掘等大数据技术,在保障公共事业数据安全前提下,进行整体的大数据技术整合,如图1所示,为易联云大数据架构图
图1 易联云大数据架构图
平台提供全面的数据集成能力、海量数据存储能力、全面数据批量及实时计算分析能力、并且通过多种途径、多种方式对外提供数据服务,实现数据的可利用化、价值化从而达到数据服务于公共事业的每一个场景。
①数据集成:
集成能力支持与多种数据源数据集成、支持实时、增量式的集成、支持海量结构化或非结构化的数据集成。
实时数据接入提供云服务外的数据实时传输到云服务内的能力,使用华为实时流接入(data ingestion service,dis)及开源消息队列kafka对接第三方的采集工具,通过api接口把生产者产生的数据实时添加到消息队列通道中,并让消费者应用程序获取并进行实时分析,从而在数分钟内从数据中获得重要见解,而无需数小时或数天时间,数据接入九游会网址j9的服务支持多种数据源格式,如物联网表采集数据、日志和定位追踪事件、网站点击流、社交媒体源等。
离线数据迁移(cloud data migration,cdm)提供同构/异构数据源之间批量数据迁移服务能力,可将线下第三方系统、云平台及其它数据源的数据全量迁移或增量同步至易联云大数据平台,利用大数据平台对海量数据分析处理,将结果数据回流到本地业务系统,实现数据价值的挖掘,数据迁移九游会网址j9的服务支持近20种常用数据源,满足数据在云上和云下的不同的迁移场景,让数据自动流动。
②数据存储:
提供分布式存储能力,实现pb级别(petabyte,较高级的存储单位)结构化和非结构化数据存储,并提供列式数据库存储,根据不同的应用场景,采取合理、安全、有效的方式将不同热度的数据存储不同存储空间,当并能保证有效的访问,易联云大数据平台数据存储包括如下:
hbase数据库是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,公共事业可将大量的终端采集数据储存在hbase中,以支持pb级别的数据存储和毫秒级的数据详单查询,实现实时的交互式查询。
对象存储服务(object store service,obs),华为基于对象的海量存储服务,提供超大存储容量的能力,适合存放任意类型的文件,适合普通用户、网站、企业和开发者使用,obs提供三种存储类型(标准、低频访问、归档),依据数据不同冷热程度,提供极致成本控制,易联云大数据平台选用obs存储,能够大幅降低企业成本,并根据需求调整规模和提高创新速度帮助企业简单便捷的管理大数据。
③数据分析:
大数据分析是指对规模巨大的数据进行分析计算的过程,包括对流式数据实时分析,历史数据的批量分析及相关的机器学习算法模型等。
实时流分析(cloud stream service, cs),是运行在公有云上的实时流式大数据分析服务,支持大规模集群计算,集群弹性伸缩,具有高吞吐低时延特点。提供数据实时分析的能力,可在线sql编平台编写stream sql,定义数据流入、数据处理、数据流出,快速便捷实现业务逻辑。
历史数据统计,通过mrs服务(mapreduce service,mrs)提供的spark、及mapreduce组件对海量数据进行分析计算,mrs是一个用于海量数据的管理和分析的虚拟化服务,其集开源的hadoop、spark、hive等大数据组件,可以在集群内进行mapreduce、spark和hive作业,对数据进行分析和处理,数据处理完成后,采用ssl加密传输数据至对象存储服务,保证数据的完整性和机密性。
机器学习服务(machine learning service,mls),是一数据挖掘分析服务,通过机器学习技术发现已有数据中的规律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用生成预测结果。
④数据接口:
通过统一标准的应用程序编程接口(application programming interface,api),对外部系统提供数据接口服务,如:根据分析结果实现动态调整人力、物力、财力之间的配置,实现移峰填谷、智能维护运营,方便公用行业决策层从漏损率控制、产销差管理、安全性预防等方面对整个企业的运行进行动态调控等。
2.2.2.大数据基础环境
易联云大数据平台选用华为基础服务及开源的大数据组件搭建而成,数据分析处理能力强,信息的可靠和安全,相关组件及产品清单如下:
序号 | 组件名称 | 组件功能简述 |
① | 消息队列kafka | kafka是由apache软件基金会开发的一个开源流处理平台,是一种高吞吐量的分布式发布订阅消息系统。 |
② | 实时流分析cs | cs(cloud stream service)提供实时处理流式大数据的全栈能力,利用类sql语言或者java、scala、python等编程语言实现各种实时数据分析处理。 |
③ | 实时流接入dis | dis(data ingestion service)实时数据接入服务,提供了灵活数据采集、高效数据传输、实时数据分发能力,可轻松构建基于实时数据的分析和应用。 |
④ | 离线数据迁移cdm | cdm(cloud data migration)实现同构/异构数据源之间批量数据迁移服务,帮助客户实现数据自由流动,支持客户自建和公有云上的文件系统,关系数据库,数据仓库,nosql,大数据云服务,对象存储等数据源。 |
⑤ | mrs服务 | mrs(mapreduce service)可控的企业级大数据集群云服务,集开源的 |
(含hbase、spark、 sparkstreaming、hive、mapreduce服务) | hadoop、spark、hbase、hive等大数据组件于一体,提供大量数据分布存储、高性能并行计算、毫秒级的数据查询等大数据综合能力。 | |
⑥ | 对象存储服务obs | obs(object store service)对象存储,提供稳定、安全、高效、易用的云存储服务,大存储容量的能力,可以存储企业和物联网平台的大量数据,可存储任意数量和形式的结构或非结构化数据。 |
⑦ | 机器学习服务 mls | mls(machine learning service)帮助用户通过机器学习技术快速发现数据规律和构建预测模型,并将其部署为预测分析j9九游会网站的解决方案。 |
saas云平台模式下的行业大数据应用
易联云基于saas云服务模式的公用事业行业大数据应用主要包含客户端大数据应用及运行端大数据应用。
3.1.客户端大数据应用
3.1.1.增值服务
公用事业企业在向用户提供天然气、自来水、电等基础服务过程中,积累的大量的业务数据,包含用户名、用户性质、地址、电话、家庭人数、购买燃气产品类型等用户基本数据;包含用户用气使用量、使用规律、付费关系等用户行为数据;以及用户服务申报、安检、投诉、建议等客户服务数据等。
这些数据往往有一些局限,但这些数据可以结合企业外部的数据,如用户微博信息、社交信息、商城访问信息等,可获取用户风险信息、财务信息,进而判断用户信用等级、用户利润、贡献度等,可进一步挖潜数据背后的巨大价值。
用户画像,又称人群画像,是根据客户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像,用户画像旨在通过一系列算法或规则挖掘,把用户分成彼此相同或不同的人群或个体,进而区别化提供服务进行观察分析,如性别比例、品牌偏好、岗位分布、社交偏好、活跃度、大客户、新装户、空房户、采暖户、设备类型、设备数量等。
基于用户画像标签实现精准营销及服务推送,传统服务和增值模式,采用一对多方式,无法区分用户年龄段、日常使用喜好及个人需求,在针对群体执行个性化服务、针对性的营销中,成本高、准确性差。引入大数据可以根据用户当前生命周期的重要事件,实现个性化的智慧服务和增值服务。如:通过数据发现某客户的灶具快到期了,在用户画像中了解到客户家庭收入较高,我们就可以针对性推送灶具到期更换提醒,并顺便推介高档次灶具,对企业来说,既可以增加营收,还可以降低用气事故风险,另外还可以针对这部分用户推出个性化的增值服务,包括滚动式安检、设备维护保养、专人预约上门等。
3.1.2.智能客服
在传统的客服系统中,人力成本大、客服绩效考核困难、客户需求无法及时响应、客服中心工作简单重复且同质化严重等等。而依靠大数据分析和人工智能的智能客服系统,全方位打通了客服的沟通渠道,将客服从简单同质化问题中解放出来,降低了80%的人力成本、提高60%的团队沟通效率。
大数据可以训练和优化人工智能,一般的客服机器人只能回答最直白的问题,但大数据可训练和优化人工智能知识库,除了常规的自然语言理解启动问答引擎外,通过内部数据和互联网数据,进行行业知识挖掘以及常见问题模型训练,可以在一定程度上让机器猜到用户的问题,学会如何应对用户各式各样的问题,从而建立基于知识库的问答、基于知识图谱的问答以及开放式聊天。
智能客服能够24小时不间断的为客户进行服务,随时随地都可进行接待,填补了人工客服在休息、假日期间的空缺,工作量更高;对于客户的信息掌握的更加精准,可以根据提供的访客基础信息以及访问信息进行预判,为客户提供更加贴心的服务;同时,可以分析访客所提出的问题,迅速读取资料库,完成共性问题的解答,最大限度的缩短了回复的时间。
3.1.3.渠道优化
通过大数据搜集各个客户接触渠道的客户行为信息,结合客户关系管理(customer relationship management,crm)客户属性和分类,对各渠道业务运行状况和客户服务消费偏好、热点进行深入分析挖掘,以改善渠道用户体验,提升运营效率。
通过分析客户接触渠道的客户行为,有效安排营业厅、微信、支付宝、app掌厅、网厅等不同渠道的业务形式,如用户通过微信、支付宝可完成90%的缴费业务,营业厅便可减少现场缴费窗口,节省线下成本。
对于信息化发展相对落后,用户对于网上缴费的意识还不够,公用行业大多采用增加线下的第三方代收的模式,通过大数据技术,通过分析代日常业务、人流量、人口分布,对是否需要设置第三方代收缴费网点、在何处设立第三方代收缴费网点、增加多少个缴费网点进行科学决策。
3.2.运行端大数据应用
大数据应用,帮助企业监测用量异常、用量预测、输差管理等,提升运行安全、运行效率与周期。
3.2.1.异常监控与用量预测
通过有效利用数据采集与监视控制系统数据(supervisory control and data acquisition,scada)和已经建设完成的用户关系管理系统(customer relationship management, crm)、gis地理信息系统 (geographic information system,gis)等信息系统,利用云计算和大数据分析技术打通系统之间的屏障,实现数据共享和业务系统集成。
对安全相关设备的状态、用量趋势进行监测,对异常行为进行告警,表具一般都标有最大的工作流量,通过实时监控分析,可监测是否存在超负荷使用情况,用量曲线突然降低,是否存在生产过程设备故障的情况、用气曲线突然增高,是否存在表后设备漏气的情况。
对阶段历史用量数据,基于机器学习和预测模型进行分析,预测未来一段时间内,用户的用量趋势,预测未来一段时间内用户的用量,保证重点服务用户的燃气供应,同时,当未来一段时间发生后,可以用实际用量和预测用量进行对比,逐步修正预测结果。
如图2,为某燃气公司工商户用气监控及预测信息展示效果,整个图分三个功能区域,左侧列表展示管辖区域下流量计最近十分钟瞬时流量排行,上侧区域直观呈现各流量计当前流量、温度、压力值,下侧区域则以曲线形式展现用气量趋势及预测情况,通过实时监控对比历史数据在线分析,及时监测筛选激增、陡减、跳跃等异常行为,进而协助业务分析是设备故障还是非法用气,同时还展示每天及每月生产高峰,保证重点服务用户的燃气供应。
图2 某燃气公司工商户用气监控及预测信息
3.2.2.输差管理与气源调度
通过对上游门站进行抄表,对气源采购量进行登记,实现气源采购管理,通过手抄表、移动抄表(普表抄表和卡表抄表),辅以必要的用气量估算,实现用气量管理。通过输差相关数据提供部门对输差气量的填报,实现系统自动出具输差统计报表完善营销管理系统,辅助客户管理。最终实现加强企业管理,规范输差整治,降低燃气漏损,提高经济效益。
通过管网运行状况数据监控分析及调整、气源协调、紧急情况的应急指挥,使整个输配系统保持平稳状态。从而为用户提供高质量的供气服务,减少输配过程中的损失,最大限度延长管网的使用寿命,保障输配系统安全运行,最终提高企业的运营效益。如:通过对同一管网支路上的工商户生产用气数据分析,分析多个工商户用量在生产过程中,不同生产用气峰值是否存在重叠。如果多个工商户生产峰值重叠,可能造成气量不足,对工商户造成生产效益较低或产品质量出现问题。通过实时监控或历史数据分析,调节工商户投料时间,避开峰值,从而为工商户生产提供足够的用气量。
小结
公用事业行业大数据挖掘应处于初步阶段,基于saas云服务平台的公用事业行业大数据应用,能够统一、真实、有效的挖掘行业大数据,易联云saas云平台通过客户端大数据分析应用,为用户提供精准的增值服务、高效的在线客户服务以及改善用户在各渠道的服务体验,为节省企业服务成本,创新企业增值业务模式,为用户和企业带来双向价值;通过运行端大数据分析应用,为企业运行日常监测管理带来便利,保障了运行安全、运行效率与周期,为企业节省了人力物力成本。
公用事业企业大数据对于提升行业信息化管理水平,拓展新的服务模式有重要作用。目前国内公用事业企业大数据应用尚在起步阶段,数据的分析与挖掘还未有效利用,需要公用事业行业内部及拥有先进技术的互联网企业共同努力,真正发挥公用事业行业大数据价值。