基于大数据平台的输电网故障诊断架构研究基本信息

中文名 基于大数据平台的输电网故障诊断架构研究 项目类别 青年科学基金项目
项目负责人 王磊 依托单位 山东大学

目前故障诊断领域的研究方向大多集中于提升诊断算法的有效性,而忽视了底层数据传输的模式研究。本课题致力于研究开发基于大数据平台的电网故障诊断系统:运用大数据平台在数据收集方面高效、稳定的能力,建立从变电站过程层直接采集故障信息的故障数据收集模型,为上层的故障诊断提供快速、准确且格式统一的数据源;基于该大数据平台,研究实现以故障知识的表示形式为基础,按照故障特点择优选取智能方法的一种新型故障诊断算法,实现诊断。该方法在诊断效率上较传统方法有较大的提升。课题主要研究内容和关键技术包括:适用于故障诊断系统的大数据平台构建方法研究;故障数据格式统一性的研究;大数据平台基础之上集中式故障诊断方法的研究;数据分布式收集与故障元件集中式诊断相结合的新型诊断框架的研究以及关键信息缺失情况下故障诊断算法的研究。本课题将会在故障诊断领域以独到的见解开展一个全新的研究,其研究成果具有重要的理论意义及应用价值。按照资助项目计划书对本项目展开了较深入的研究,搭建了基于大数据平台的电网故障诊断架构,取得了较好的成果。借助国家自然科学基金这个强有力的平台,不仅提高了课题组的科研水平和科研能力,还极大的活跃了学术气氛,加强了与国内外同行的交流与合作,同时还带动了横向项目研究和开发的水平,使大批研究生得到了锻炼,人才培养质量的得到加强。课题组在对已有电力系统故障诊断研究成果的基础上,经过三年的努力,发表期刊论文7篇,其中SCI收录1篇,EI收录4篇;参加国内外会议并提交论文1篇,为EI收录;授权发明专利2项。 2100433B

基于大数据平台的输电网故障诊断架构研究造价信息

市场价 信息价 询价
材料名称 规格/型号 市场价
(除税)
工程建议价
(除税)
行情 品牌 单位 税率 供应商 报价日期
设备故障诊断 频率范围: 1KHz…50kHz 尺寸: 212×197×50(mm)(mm)/HG-3600 查看价格 查看价格

TIME/时代

13% 吉林省永华建筑工程有限公司
故障诊断模块 6EP1961-2BA11 查看价格 查看价格

西门子

13% 西门子(中国)有限公司广州分公司
故障诊断模块 6EP1961-2BA21 查看价格 查看价格

西门子

13% 西门子(中国)有限公司广州分公司
故障诊断模块 6EP1961-2BA00 查看价格 查看价格

西门子

13% 西门子(中国)有限公司广州分公司
交直流故障诊断 185×100×45(mm)(mm)100/200、(A) 3~1000Ω(Ω)/HG-6802 查看价格 查看价格

13% 吉林省永华建筑工程有限公司
大数据应用服务平台 涉车犯罪应用、手机话单应用、移动应用、智能业务应用服务等功能 查看价格 查看价格

13% 郑州信大捷安信息技术股份有限公司
大数据基础平台 数据接入管理、数据资源管理、数据接口管理、数据服务管理、搜索查询服务等功能 查看价格 查看价格

13% 深圳市睿策者科技有限公司
大数据基础平台 数据接入管理、数据资源管理、数据接口管理、数据服务管理、搜索查询服务等功能 查看价格 查看价格

13% 郑州信大捷安信息技术股份有限公司
材料名称 规格/型号 除税
信息价
含税
信息价
行情 品牌 单位 税率 地区/时间
平台 提升质量0.75t 查看价格 查看价格

台班 汕头市2012年1季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 汕头市2011年1季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 广州市2010年4季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 广州市2010年2季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 汕头市2009年3季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 广州市2008年4季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 汕头市2008年4季度信息价
平台 提升质量0.75t 查看价格 查看价格

台班 汕头市2008年3季度信息价
材料名称 规格/需求量 报价数 最新报价
(元)
供应商 报价地区 最新报价时间
大数据平台 1.名称:大数据平台 2.品牌:徽粤大海/DHWL 3.型号:DHWL-XLZS 4.产地:中国5.功能参数:系统通过云计算、物联网、大数据等先进技术手段对平台所有数据进行多维度挖掘分析,可直接进行预警,给我们工作人员及领导做出一个决策建议 ,辅助领导作出决策|1套 3 查看价格 广州康码仕信息科技有限公司 广东   2020-10-23
故障诊断模块 6EP1961-2BA00|9578台 1 查看价格 西门子(中国)有限公司广州分公司 广东  广州市 2015-07-17
远程故障诊断系统 由于字数太多,详见原档|1套 1 查看价格 广州视睿电子科技有限公司 四川   2019-04-03
故障诊断模块 6EP1961-2BA21|2731台 1 查看价格 西门子(中国)有限公司广州分公司 广东  广州市 2015-04-17
示范场大数据平台 详图纸|1套 1 查看价格 江苏瑞丰信息技术股份有限公司 广东   2022-06-10
园区云及大数据支撑平台-基于信息安全管理 通过服务proxy机制、数据加密、访问权限控制等构成云安全体系,主要分为:云访问控制、云网络安全、云数据安全、云|1套 3 查看价格 广州图南软件科技有限公司 全国   2017-09-27
园区云及大数据支撑平台-基于信息安全管理 通过服务proxy机制、数据加密、访问权限控制等构成云安全体系,主要分为:云访问控制、云网络安全、云数据安全、云|1套 1 查看价格 深圳市宝莱克科技有限公司 广东  阳江市 2017-07-27
大数据基础平台 数据接入管理、数据资源管理、数据接口管理、数据服务管理、搜索查询服务等功能|1套 2 查看价格 深圳亿维锐创科技股份有限公司 广东  阳江市 2016-05-27

目前故障诊断领域的研究方向大多集中于提升诊断算法的有效性,而忽视了底层数据传输的模式研究。本课题致力于研究开发基于大数据平台的电网故障诊断系统:运用大数据平台在数据收集方面高效、稳定的能力,建立从变电站过程层直接采集故障信息的故障数据收集模型,为上层的故障诊断提供快速、准确且格式统一的数据源;基于该大数据平台,研究实现以故障知识的表示形式为基础,按照故障特点择优选取智能方法的一种新型故障诊断算法,实现诊断。该方法在诊断效率上较传统方法有较大的提升。课题主要研究内容和关键技术包括:适用于故障诊断系统的大数据平台构建方法研究;故障数据格式统一性的研究;大数据平台基础之上集中式故障诊断方法的研究;数据分布式收集与故障元件集中式诊断相结合的新型诊断框架的研究以及关键信息缺失情况下故障诊断算法的研究。本课题将会在故障诊断领域以独到的见解开展一个全新的研究,其研究成果具有重要的理论意义及应用价值。

基于大数据平台的输电网故障诊断架构研究常见问题

  • 大数据教学科研实训平台如何帮助高校搭建大数据专业教学体系?

    芝诺大数据教学科研平台以校企联合培养模式为手段,通过校企合作联合培养机制,让企业、行业深度参与人才培养过程,逐步实现校企共同制定培养目标、共同建设课程体系和教学内容、共同实施培养过程、共同把控培养质量...

  • 输电网和配电网的主要功能

    输电网是发电厂发出的电经过升压后输送到用户的网络,配电网是把发电厂来的高压电用变压器在变成低压输送给用户的网络。

  • 什么叫输电网?什么是配电网

    输电网是以高电压或超高压将发电厂、变电所或变电所之间连接起来的送电网络。配电网是直接或降压后将电能送到用户的电网。

基于大数据平台的输电网故障诊断架构研究文献

基于城市视频大数据的社会综合治理大数据平台设计 基于城市视频大数据的社会综合治理大数据平台设计

格式:pdf

大小:148KB

页数: 3页

评分: 4.7

为贯彻落实《国务院关于印发促进大数据发展行动纲要的通知》(国发[2015]50号),推动大数据健康发展和广泛应用,以城市的视频监控数据源为抓手,推动视频数据资源的整合汇聚,通过视频大数据的前沿技术解决城市维稳、社会治理、交通等社会管理难题,提升政府治理能力,改善社会公共服务,加快新型业态培育,注入经济发展新活力。

立即下载
基于Hadoop的交通信息物理系统大数据架构平台 基于Hadoop的交通信息物理系统大数据架构平台

格式:pdf

大小:148KB

页数: 3页

评分: 4.5

CPS深度融合了计算、通信、控制技术,实现了对物理世界实体感知、通信、计算和控制过程。TCPS是CPS在交通领域的应用,是新一代智能化交通管理的解决方案。TCPS大数据是交通物理世界实体的感知信息,是所有后续决策制定的基础,是交通智能化管理的关键。本文研究了CPS、TCP以及Hadoop平台的技术原理,分析了TCPS大数据处理的关键问题,提出一种基于Hadoop的交通信息物理系统大数据架构平台的解决方案,设计了基于Hadoop的TCPS大数据平台架构,讨论了基于Map Reduce的TCPS大数据挖掘方法和流程,为下一阶段的智能化交通管理系统建设提供技术支持。

立即下载

电网故障诊断的智能技术基于专家系统的故障诊断方法

Feighbaum教授 于1968年开发了第一个专家系统((Expert System)并且具体说明专家系统是一种智能的计算机程序,它通过使用知识与推理过程,求解那些需要专家的知识才能求解的高难度问题。自从70年代人们将专家系统引入到电网的故障诊断领域,基于该方法的故障诊断应用较为成功。专家系统在电网故障诊断中的典型应用可以归结为:首先建立故障信息知识库,并用自然语言建立产生式规则;然后基于对这一产生式规则的理解,知识工程师将知识表示成机器语言并通过人机接口储存到知识库中;故障发生时,将故障信息输入到推理机,推理机根据当前输入的故障信息,运用知识库中的知识,按一定的策略进行推理,从而识别出故障元件。

专家系统将专家的知识应用于电网故障诊断,可以保证诊断系统的实时性和有效性,但是基于知识的本质和实现故障诊断的原理没有变,因此当前专家系统还存在着不足:(1)专家知识是人为移植到计算机的,所以难以建立完备的知识库;(2)容错性差,对于保护和断路器的误动作及知识库中不包含的情况,很难给出正确的判断;(3)系统的维护难度非常大,知识库要经常根据实际情况进行更新。

未来的研究中将专家系统与其他智能技术相结合是一种有效的方式,取长补短,弥补专家系统本身的缺陷。有研究将模糊集理论与专家系统结合,通过对电压和电流值以及保护和断路器信息进行模糊推理,能够有效地改善专家系统容错性差的问题。也有采用一种适用于电网故障诊断的整个协同式专家系统的结构体系,并且将其与多智能体技术相结合,克服了单一专家系统的局限性,增强了对复杂故障实时诊断的推理能力 。

电网故障诊断的智能技术基于人工神经网络的故障诊断方法

人工神经网络(Artificial Neural Network)是一种模拟神经系统来进行信息处理的数学模型,主要是基于输入和输出关系建立起来的,并由大量简单的处理单元(神经元)广泛互连而形成的复杂网络系统。神经网络能够对大量的训练样本进行分析推理,得到一般规律,从而能对未知的或无法预测的故障信息进行分析判断。前馈神经网络较广泛地应用于电网故障诊断领域,其中最具代表性的是BP(Back Propagation)神经网络和径向基神经网络。

有研究给出了BP神经网络在电网故障诊断中的典型应用:将保护器和断路器的动作信息作为神经网络的输入,可能发生的故障情况作为输出,以此来建立诊断模型;通过大量的故障实例形成训练神经网络的样本集;训练过程中,网络的输入节点加输入信号,此信号向前传播,并不断根据当时的节点活化函数、连接加权系数和给定值进行相应计算,此过程即为学习过程;在学习结束前,若前向计算的输出与期望的输出之间存在误差,则将误差信号反向传播,调整权值和值,直到输出满足要求。

神经网络有强大的学习能力,而且具有容错能力强、鲁棒性好、非线性映射和并行分布处理等特点。然而,神经网络还存在如下缺陷:(1)需要大量的训练样本以供学习,但获取完备优质的样本十分困难;(2)神经网络在诊断过程中被看成是“黑箱”,缺乏对自身行为的解释能力;(3)神经网络不善于处理启发式的规则。未来对基于神经网络的电网故障诊断方法的研究重点还是在选取有价值的训练样本、给予诊断过程解释能力、使适用于大规模电网故障诊断等方面。

电网故障诊断的智能技术基于贝叶斯网络的故障诊断方法

贝叶斯网络(Bayesian Network)是一种用来表示和推理不确定性知识的模型,它将概率论的相关知识与图形理论相结合,具有较为严格的理论基础,对解决复杂电网由于不确定因素引起的故障等问题具有明显作用。利用贝叶斯网络技术进行电网故障诊断的研究还处于初期阶段,但是发展的较为迅速。文献采用分层递归的思想,利用粗糙集理论对电网故障信息进行分层挖掘,达到属性优选,然后通过贝叶斯网络进行故障诊断,成功识别出故障元件。结合监测设备的状态信息,利用贝叶斯网络实现了故障情况的提前预测。也有文献基于元件建模,通过设置各节点的先验概率,使得故障信息经过贝叶斯网络后,得到各元件发生故障的概率,以此识别故障元件,若采用某个值作为判断条件,可同时对一个或多个元件的故障进行有效诊断。

贝叶斯网络的诊断模型清晰直观,对于不确定和不完备信息可以进行良好的诊断决策,然而,网络节点赋值需要大量的实际观察或统计分析方法来确定,而且贝叶斯网的训练属于NP难度问题,处理复杂问题时将变得非常困难。未来该领域的研究将主要集中在如何实现贝叶斯网络的自动建模,如何将其与信息融合理论相结合等方面。

电网故障诊断的智能技术基于优化技术的故障诊断方法

采用优化技术(Optimization Methods)的故障诊断方法是一种基于数学模型的求解方法。国内外学者提出了多种优化算法,可以将其应用到电网故障诊断领域,而且优化算法在电网规划等方面也有较好的应用。常用的优化算法包括:遗传算法,模拟退火算法和蚁群算法,还有较新的算法如交叉嫡算法。

优化技术应用于电网故障诊断的方法是考虑故障元件与保护器和断路器的动作关系,将电网故障诊断问题表示为使目标函数最小化的0-1整数规划问题,然后通过优化算法求解该问题的最优解。有文献基于小生境遗传算法,并结合粗糙集理论,来求取决策表约简,从而抽出诊断规则,提升了对不完备信息的分析能力。

基于优化技术的故障诊断方法具有严密的数学基础和理论依据,用常规的优化算法即能够实现而且能够在诊断信息不全面的条件下,给出局部和全局最优的多个诊断结果。不过该方法还存在的问题是:(1)目标函数的确定比较困难;(2)优化算法的多次迭代,导致诊断时间过长;(3)优化算法在寻优的过程中存在随机因素,可能导致丢失最优解。所以选择更全面的诊断模型以及采用合适的优化算法来提高诊断的准确性和实时性是该领域未来研究的重要方向。

电网故障诊断的智能技术基于支持向量机的故障诊断方法

统计学习理论是一种专门研究有限样本情况下机器学习规律的理论,为研究统计模式识别和更广泛的机器学习问题建立了一个较好的理论框架。Vapnik等人根据对统计学习理论的研究,提出了支持向量机(Support Vector Machine)这种全新的模式识别算法,有效地改善了传统分类方法的缺陷,具有充足的理论依据。它在文本分类、故障诊断、手写识别等领域中获得了较多的应用。

故障诊断问题从本质上来说就是一种分类问题,而支持向量机对于有限样本状况下的分类问题具有较强的针对性。有文献通过将粒子群优化算法与支持向量机相结合来进行故障诊断。由于在支持向量机算法中,核函数参数选择的好坏直接影响到诊断结果的准确度,而文中采用的方法能够实现参数的动态选取,达到优化诊断结果的目的 。

支持向量机基于统计学习理论,有效地改善了传统分类方法的缺陷,具有充足的理论依据,对解决有限样本的模式识别问题具有很高的适用性。下一步的研究重点在于如何改进算法,使诊断过程快速并满足实时性的要求以及处理大电网故障诊断、参数的选择等问题。该技术在故障诊断中的应用起步较晚,随着研究的加深,该方法有望成为电网故障诊断领域的实用方法之一。

电网故障诊断的智能技术基于模糊集理论的故障诊断方法

美国自动控制专家L A Zadek于1965年首次提出“模糊集合”的概念,并引入“隶属函数”来描述差异的中间过渡。模糊集理论(Fuzzy set Theory)将信息模糊化,首先系统获取的信息组成的集合可以看成一种经典集合,按照某种对应法则将集合中的元素映射到 [0,1]这一区间,这样集合中的每一个元素在0和1之间都对应一个实数,这个实数可以表明其隶属于0或1的程度,按照以上对应法则组成的函数就是隶属度函数,该理论就是以隶属度函数为基础建立的。在电网故障诊断领域发展的早期,人们对专家系统应用在故障诊断领域做了较多的研究,然而很少考虑到信息的不确定性,从而导致诊断的不精确。有文献针对电力系统故障诊断问题中的不确定信息给出解决方法,将模糊集理论应用在电网故障诊断领域,通过将故障信息模糊化,不仅可以减小数据信息的存储空间,也能提升诊断精度和容错性。

模糊集理论的特点就是可以处理信息的不确定性,然而基于模糊集理论的故障诊断方法还面临着一些弊端:(1)隶属函数的建立没有一个明确的标准;(2)可维护性差,当电网结构发生变化时,模糊知识库和隶属度也要做相应的变化;(3)大规模电网的模糊诊断模型建立困难。在实际应用中,常常将模糊集理论与其他智能方法相结合(如专家系统、神经网络、Petri网等),用来分析不确定性信息对诊断系统的影响,提升诊断精度,增强系统的容错性。

电网故障诊断的智能技术基于Petri网技术的故障诊断方法

Petri网是德国科学家Carl Adam Petri 于1960到1965年提出的一种数学模型,它利用目标系统中元件之间的关系来构建有向图的组合模型,从而能够准确地表示离散事件发生的顺序、并发和冲突的关系。印度学者 Jenkensl和Khincha在1992年首先将Petri网技术应用于电网的建模中,在这之后Petri网在电力系统的很多领域中得到了应用,并显示出了其良好的应用前景。电网的故障可看成是离散事件,而Petri网是对离散事件组成的系统进行建模和分析的理想工具。

Petri网方法能够定性或定量地对系统中事件发生的各种过程采取准确的分析,同时还具有图形化的结构表示等优点,是对离散事件进行动态建模和分析的有效方法,不过还有一些尚需深入的问题存在,主要是:(1)系统网络拓扑的扩大,易导致建模时发生信息组合爆炸的情况;(2)电网多重故障时,诊断结果不够理想;(3)对于保护和断路器拒动或误动时产生的错误信息不能很好地分析识别。未来的研究中,将高级的Petri网用于复杂电网的故障诊断是一种有效的措施 。

电网故障诊断的智能技术基于信息融合技术的故障诊断方法

信息融合(Information fusion)技术实际上是一种多源信息的综合技术,通过对来自不同数据源的信息进行分析和智能化合成,获得被测对象及其性质的最佳一致估计,从而产生比单一信息源更精确、更完全的估计和决策。采用该方法的电网故障诊断已显示出了明显的优势。

采用信息融合技术将开关量与电气量等来自不同数据源的信息综合利用,可以极大地提高诊断系统的实时性和准确性,有效地避免由于故障信息的不确定性而导致的错误诊断。信息融合技术在今后的研究中,重点将放在解决如何选取合适的信息融合方法以及如何在实际中融合更多方面的信息,这会使得电网故障诊断水平上升到一个新高度。

电网故障诊断的智能技术基于MAS的故障诊断方法

多智能体(Multi-Agent System, MAS)技术是分布式人工智能技术的重要分支,它是一种将计算机、网络和分布式思想相结合的软件工程技术,能够将目标问题转变成在逻辑上或物理上分离的多个Agent,可分别针对每个Agent来解决问题,而且各个Agent之间相互协调信息得到最终结果,节约了数据和资源。文献将MAS技术应用于电网的故障诊断中,先将诊断系统智能分解,再通过软件技术来协调各Agent中的信息并得出诊断结果,满足了准确性和实时性的要求。有文献提出一种基于智能识别系统的MAS技术。MAS实现了控制过程的在线自适应识别和实时的进行离线故障诊断,同时可以适应和克服大规模电网的复杂性。

电网故障诊断中需要构建表述电气设备、保护和断路器关系的解析模型。有文献对于故障时警报信息的时序特性进行研究,结合动态关联路径概念构建了电网故障诊断解析模型,能够更清晰地描述电网保护配置下保护与断路器的动作逻辑和动作时序关系,可以更好地反映多重复杂故障。也有文献研究了保护和断路器发生误动与拒动行为的故障假说,建立了更为完备的诊断模型,不仅可以分析保护与断路器误动、拒动行为,还可以识别漏报或误报的信息。有研究提出了电网故障诊断的完全解析模型,通过建立逻辑约束表达了保护配置与断路器动作规则之间的解析关系,完整地保留了保护动作状态、断路器跳闸状态以及它们误动、拒动之间通过规则解析而形成的藕合关系,提高了模型的鲁棒性和故障诊断的容错能力。上述模型面向继电器层面构建,在应用时不能充分体现保护装置层面的逻辑关系,电网运行中继电保护按成套装置配置,装置内及装置之间由于操作要求和电路联系具有动作一致性 。

在诊断系统建模中,数据格式的定义一般结合具体应用目的由人工设计实现,随意性较大,不够规范。随着电网自动化建设的发展,IEC61970和IEC61850标准的提出为电网故障诊断模型构建提供了新的思路,有文献采用公共信息模型(CIM),也有文献提出一种统一信息模型,这就为故障诊断模型的构建提供了一个较规范化的模式,可以基于统一的规范进行系统的数据格式设计。然而IEC61970和IEC61850标准设计的初衷是为通讯应用,不体现数据之间的关系,电网故障诊断所需的知识与规则依然需要人工搭建。

电网故障诊断的应用目的是为调度中心的调度员提供智能化的决策,所以诊断的基本架构是基于调度中心构建的。由于当前电网规模的逐步扩大,分层分布式的诊断系统架构和多智能体系统的构建方式相继展开研究,其主要目的在于通过分层分区的方式实现任务分解,降低调度端的解题压力,以完成大电网复杂故障的诊断求解 。

说起互联网、电商的数据分析,更多的是谈应用案例,如何去实践数据化管理运营。而这里,我们要从技术角度分享关于数据的技术架构干货,如何应用BI

原文是云猴网BI总经理王卫东在帆软大数据上的演讲,以下为整理的文字稿:

 

在电商领域,我们一般认为所有的数据都可以分为四大类型,流量、销量、商品和会员,这也是最基础的报表需求。

流量部分,可以分为受访、点击、搜索、来源等等。这些流量信息运用的重点在于一些广告包括一些产品的改版以及搜索引擎的相关信息展示。虽然这方面百度、GA可以给你提供这方面的信息,但未必能完成一个企业的所有需求。

销量部分,会分为销售、补贴、渠道、支付、地域等等。但对于这些信息,领导更关注流量有多少,销量有多少,然后投入是多少,哪个渠道带来的销量是最多的,转化率是最高的,目标客户重点在什么区域。但是对于我们的实际运营,我们还要继续往下细钻,需要对商品和会员的信息挖掘得更加细致。

商品部分,会涉及到的品类、库存、毛利、动销和转化,一般电商商品的品类大多会分为三级,但也会往下细分到四级,他需要细化到每个品类的转化率,哪个更高?以及在每一个品类里面哪一个商品的动销率最高,哪种的商品的转化率是最高,因为你需要实时调整和改变。对于会员来讲,还要了解其注册情况、复购情况、活跃度以及喜好和流失等等。所有的这些就构成了我们的常规基础报表。

关于BI,包含3个阶段。第一阶段是常规的报表阶段,第二阶段是数据分析,这里的数据分析并不是现有数据的陈述,那是历史数据没有太大意义,不能帮助预测。而数据的价值恰恰在于预测而不是陈述,所以这些信息我们会用来风控。

在电商领域会有这样几个风控需求,流量异常,转化异常和订单异常。那这样的风控是怎么做的呢?比如流量异常,加入我们设定的日常流量是30万的PV,某天突然间小于30万了,那就可以设一个阈值说我的流量小于30万了,这个称之为预警。

然后讲一下统计学上的一些操作。第一种称之为UCL,在统计学里面称之为质量控制图。在这个图里,所有的流量都含有一定的趋势,可以去判断一个数据的出错,与历史信息产生的异常。一般来讲,产生的绝大多数数据会满足质量分布,98%的数据所处的范围区间会在均值加上两倍标准差的概率之内。为什么要做这样一个模型呢?以前我们没有运用这个模型之前,运营部门经常会跟老板报告这一天流量、销量是多少,当问及为什么下降的时候无从解释,数据是否超出了可控范围无从知晓。有了这样一个模型就很好解决了。

风控之后还有其他需求比如用户画像-推荐。用户画像是基本投放的前提条件,只有先做用户画像才能有推荐系统。推荐系统之外还有一个底价系统,底价系统是用来监控对方的价格数据以及提取商品卖点。

所有这些之后,如果要建设一个BI系统,该如何选型呢?免费?收费?还是自建?这里举一些实际例子,做个对比。

 

免费统计

比如免费的流量统计,百度、GA都是免费的统计工具,接入很快,埋入代码就行,但是无法联通H5APP,数据也不能连入数据库。其次,免费的工具无法解决销量会员商品数据问题,处于企业自身数据安全的问题,包括企业的BI系统,外网是无法访问的。

其次,广告渠道的数据不准确,他的统计一定虚高,所以这一块需要第三方的参照。而且每家计算标准不一,数据差异大。

 

收费平台

收费平台介入快,成本相对较低,但数据的私密性较差,多数据源的聚合有难度,每一个端口的唯一识别问题很难去定义。自定义程度也不高,因为它是做通用化的,行业细化不够,沟通成本较高。

 

自建平台

最大的有点在于自定义程度高,数据更为精细,可以为多数据的聚合和钻取,但缺点就在于建设周期长,人才很难找。

 

۞选型建议

这也是我们为什么找帆软这个企业来做第三方的工具,因为相关人员的成本很高,所以这方面工具的选型建议找专业的来做。避免被业务人员的需求带着跑,而是利用工具去引导。

其次,我们一直认为数据的实时性和准确性很重要,用于风控和预测,而帆软报表FineReport的自定义程度可以让非专业人员也能着手做。最后一点,数据的可视化采用编程代价最小,这一点FineReport在数据可视化方面是很不错的。

 

۞系统架构

这是目前我们公司的系统架构:

首先是两个数据,用户行为数据和业务数据。商品会员交易库存这一方面是业务数据,这些业务数据多数存储在my sql数据库里。埋点系统里的渠道数据分为两端,PCH5的采集很简单,用脚本组件进行采集,这是通用的。但App就需要打制组件。

拿到数据以后会往flume里面去,到flume里直接取到之后,上面会搭一层队列,因为如果单纯依靠flume的话,系统会卡死,因为flume经常出现卡顿现象,也就是说你去控制他的一些监控脚本的话也是没意义的,因为有时候他的内存卡住了,资源占用,他依然在那动。所以搭建这个队列有个好处,第一,走的是消费者模式;第二,里面有位置信息,一旦出现数据错乱可以回补。

这些数据,我们首先要满足实时性问题,我们采用的是ES。利用ES做实时查询能解决很多问题,这也是我们原来做大数据的时候经常说给到对方企业采购时,你会发现前期没问题,但越做到后面我们一直说做数据仓要分主题,包括说做Cube之类的,这些都没有意义,当数据量达到一定层级以后,依然很慢。

然后是我们的BI系统。所有BI系统都是在展现层和应用层,展现层可以选择FineReportechartexcel,这个根据企业的情况去定义。但如果企业没有专业的人员, FineReport是你最好的选择,如果用别的话,后期维护成本很高。在BI系统里面不光是做展示你还需要做接口的,这个信息设施需要做接口推送给第三方,包括PCH5、微信的应用,都是从这个系统里出去的,能实现聚合一个企业的所有数据,在一个系统里面进行展示。

 

۞应用案例

电商里面存在很多黄牛党的事儿。但我们做活动的目的是让用户享受到实惠,所以在提交订单的时候会有一个过程,并不是立即审核通过的,但这个过程必须很短,要考虑到订单转化的问题。如下图,左边是后台系统的展示,这是疑似刷单名单的截图展示。流程是这样的,用户提交完订单以后,会有一个模型检测,这个模型检测是纯机器,从模型检测再到专家知识。如果在模型检测中符合会到名单里去,否则会进入到专家支持,专家支持完了以后如果认为是正常订单,才能到支付阶段,否则的话都会到疑似名单,到时候再人工判断。

基于大数据平台的输电网故障诊断架构研究相关推荐
  • 相关百科
  • 相关知识
  • 相关专栏