您好, 欢迎来到1024商务网   [请登录]  [免费注册]  忘记密码
首页 新闻资讯 产品大全 企业 求购 品牌
企业 动态 用户在搜:盖板模具 礼堂椅 常熟车床 二手压路机 电动执行器 武汉复合板 光固化树脂 过热蒸汽发生器 义乌饰品 吊篮,懒人椅 洛阳压路机 配电网一体化测控终端 有线电视可变均衡器 
当前位置:首页 > 新闻资讯 > 垂直行业 > [行业技术文章]数据仓库的聚集优化
[行业技术文章]数据仓库的聚集优化
更新时间:2013-05-22 发布:www.1024sj.com

摘要:基于数据仓库的决议计划支持系统为电力企的信息化提供了很好的解决途径。作为数据仓库的要害技术,聚集化技术承当着对现有数据仓库不竭地进行化,弥补了设计开发阶段的不足,该文着重对其在电力决议计划支持系统中的实现进行了研究,给出一套切实可行的实施步骤。

要害词:数据仓库;聚集化;电力系统;决议计划支持

中图分类号:TP311.13  文献标志码:B  文章编号:1003-0867(2006)05-0039-03

近年来,电力企的信息化建设有了长足的成长,主要体现在建立SCADA/EMS、DMS、MIS和GIS等一些自动化运用系统,它们收集和保留了海的电力系统运行数据,为电力企进行科学决议计划提供了充沛的数据资本。然而,各地域及部门间信息化建设的不服衡性和自力性,致使大都系统软件由分歧的生产厂家提供,各类功能相对自力,数据纷歧致问题突出,相互之间的数据同享坚苦,难以提供企级的决议计划分析支持。使得电力企迫切需要为企治理、决议计划分析等运用建造一个数据中心,数据仓库系统无疑是这类数据中心的一个好的实现方式。

本文在研究数据仓库技术在电力决议计划支持系统中运用的根蒂根基上,着重计议聚集化技术的具体实现。作为数据仓库的要害技术,聚集化技术承当着对现有数据仓库不竭地进行化,弥补设计开发阶段的不足,提高数据仓库的运行效率和可用性、实用性等重要使命,对于不竭顺应数据的变化和需求的变化,延长数据仓库的生命周期有着重年夜的意义。

1数据仓库与聚集化的概念

1.1数据仓库

数据仓库是计较机运用的新领域,旨在经由过程畅达、合理、周全的信息治理,到达有用的决议计划支持。数据仓库较为准确概念,是W.H.Inmon对数据仓库的界说:数据仓库是面向主题的、集成的、稳定的、分歧时间的数据纠合,用于支持经营治理中决议计划制定进程。

数据仓库分歧于传统的数据库,传统数据库中寄存的是操作性的数据,主要用于联机事务处置(OLTP),也叫操作型处置,是指对数据库联机进行日常操作,它关心的是响应时间;而寄存在数据仓库中的数据是分析性的数据,主要用于联机分析处置(OLAP),也称分析型处置,检索的内容随机性和数目更年夜,不单存储近期数据,也存储历史数据,且当前数据不竭获得弥补、更新,并可实现分歧来历数据的融合,支持随机查询,为使用者提供更多的信息,而不是数据,为决议计划者提供了更好的决议计划支持,它是建立决议计划支持系统(DSS)的根蒂根基。

1.2数据仓库化和聚集化

一般而言,当前主流数据仓库治理系统和联机分析服务器,都要求用户必需熟知企模子、领会原始数据、对数据仓库具有相当水平的常识布景;然而对于电力企在数据仓库设计和开发阶段,由于用户和开发人员对此熟悉多是分歧的或是不足的,这将致使在使用进程中表露出年夜问题。是以若何凭据系统运行的情况和用户需求的变化,对数据仓库不竭地进行化,弥补设计开发阶段的不足,以提高数据仓库的运行效率及可用性、实用性,成为数据仓库运用中迫切需要解决的一个重要问题。

作为数据仓库化一项重要组成,数据聚集化主要针对数据仓库数据聚集部门的选择而进行化,它包括了对进进聚集空间的维、条理和路径依据现实使用效果从获得好时间复杂度与空间复杂度的角度进行选择。具体而言,聚集经由过程对数据进行分组汇总,使数据到达一个用户感快乐喜爱的条理,然后可以在这个概念更为清晰的数据集进行数据分析。例如对电力公司,可以聚集天天的电,获得月、季、年的销售数据,然后再分析哪些身分对月、季、年的销售数据发生影响,而在聚集前的数据集,进行这类数据分析研究比力坚苦或可能自己就没有意义。

对于分歧的用户和分歧的运用所触及的数据仓库操作可能会见分歧或不异的聚集,采用预先计较聚集立方体,可以免一部门聚集重复、冗余的运算,更重要的是由此带来响应速度的提高。然而预先计较所有可能的聚集即对所有的聚集进行物化(materializa-tion),将致使由一个海数据集发生另外一个海数据集甚至空间爆炸,是很不现实的。是以选择在哪些维的哪些粒度条理进行聚集处置,和采用何种路径实现聚集,与具体的运用紧密亲密相关,历来是数据仓库研究和实践中为关心的焦点问题。

2在电力决议计划支持系统的运用

本节以在电力决议计划支持系统中实现数据仓库聚集的化为方针,说明从数据仓库的构建,到聚集的化算法实现的整个进程。

江苏恒源电力物资公司在生产治理的计较机运用起步较早,非凡是经过近几年的起劲,治理信息系统(MIS)被实其实在地运用于各个部门,其数据和功能不竭获得现实的检验和完善,这为建立决议计划支持系统提供了秀的条件。由于现有的MIS系统中的数据比力准确,信息编码和命名系统也比力合理,故基本上沿用原来的界说,这样对项目进度有很年夜的促进。

2.1数据仓库的建立

我们采用oracle9i构建数据仓库,这样在和原系统数据的交换方面连结很好的兼容性。系统采用关系数据库方式存储基本的事实表和各类维表,且事实表和各类维表之间采用星型模式架构,以获得较好的查询响应速度,并以事实表和各类维表为数据源,然后在此根蒂根基之上建立响应的主题立方体,用于OLAP和数据挖掘运用。

构建数据仓库中为复杂的部门在于数据导进,它需要将数据由原系统数据库导进到数据仓库的事实表和维表中,由于都是同构的Oracle,所以不管使用DTS工具仍是自己开发的数据转化软件,都能利便地实现数据导进。具体实施中,我们采用门编写的运用法式,进行这类数据的转换,这包括一部门数据清洗和变换的工作。由于原数据库中属性较少,而数据仓库维表界说的属性较多,致使年夜的空白值,这也对其后的OLAP和挖掘工作造成了负面的影响,所以需要在数据导进进程中加以处置。同时数据导进时,为了形成概念分层和知足维表的设计要求,需要对一些用户信息加以提取,如在客户单元名称中,提掏出地域信息,这是原数据库中没有的,这样可以形成客户维上地域的分层信息,利便分层汇总和分析。

2.2聚集的选择和化

在数据仓库的设计开发阶段,假设想获得较好的聚集物化方案,需要分析所有用户和运用的需求,研究现实使用中需要哪些维度、粒度条理的汇总信息,从而肯定所有可能触及的聚集和估算使用的频度。但在数据仓库建立的早期,进行这类需求分析显然是比力坚苦或不太现实,且很多情况下可能其实不准确,所以采用系统缺省的聚集物化方案,有时不失为一种简单易行的方式,而将聚集化放到系统运行的进程中,基于对系统运行情况的分析之上周期性地实施。具体实施步骤以下:

·建立初始聚集物化方案。

·肯定并录进与聚集化的相关参数指标(包括:聚集要害度、运用需求度上限阀值、运用需求度下限阀值、聚集阀值、查询阀值等)。

·启动/周期性触发聚集监测进程,收集系统运行记实。

·系统日志分析和用户需求分析。在对系统日志分析的根蒂根基上,依照维和粒度条理的取舍原则和运用需求度的判定流程,肯定哪些聚集需要物化,哪些可以删除,哪些聚集需要经过进一步判定。

·建立有向聚集关系表,获取各聚集权重。

·交替执行物化选择算法和聚集路径的化算法,在知足用户期看值和系统性能要求的根蒂根基上,肯定哪些聚集需要物化,肯定哪些聚集无需物化,而转为查询关系,实现聚集方案的总价格小。

·凭据化算法处置后获得的物化聚集方案纠合和路径,重新调整数据仓库的聚集。

化聚集进程中将用到以下几个重要的法式/子模块,在此做一个简单介绍。

·intfind_father_node(node):寻觅聚集节点node的父节点,凭据节点编号的特点,只需要寻觅metric[k][node]不等于∞的节点k,其中k需要在0到(node-1)一次遍历。

·intRoute_Optimize(metric):路径的主法式,是在已知邻接矩阵情况下,求得整个聚集关系图的小价格。从节点‘1’起头,挪用find_father_node求得其所有的父节点,然后比力获得父节点,其生成节点‘1’的价格为小值Cost(1)(并记实生成路径),同理求得所以节点的小生成价格并累计,可以获得整个聚集关系图的小聚集价格。

·intSearchDelNode(metric):凭据weight的具体数值与聚集阀值及查询阀值进行比力,肯定该节点能否加进可删除节点的纠合X。

·intSelectBestDelNode():在SearchDelNode(metric)发生的纠合X中,依次预删除每个节点后,形成新的关系图后,挪用Route_Optimize获得每个关系图的小价格,进行比力获得删除节点。

·intSelect_Optimize(metric):物化选择的主法式。经由过程交替挪用Route_Optimize、SearchDelNode、SelectBestDelNode获得所有可删除的节点,进而形成新的聚集关系图也就是化决议计划陈述,为化聚集提供方案。

·intChange_Aggregate():依照Select_Optimize()所发生的化决议计划陈述,对聚集进行重新的生成,DSO中的clsPartitionAnalyer提供了AddGalQuery的方式,用于发生新的聚集。依据新的聚集关系图的聚集方案和生成顺序,逐个挪用AddGalQuery方式完成图中所有聚集方案的物化。

其中为要害的是聚集路径的化算法Route_Optimize,下面我们将作具体计议。

对于具有n维的立方体,每个聚集多都可以由n个聚集直接生成,但由这n个双亲生成方针聚集的效率是分歧的,还有可能存在有的双亲聚集没有生成,这可能就要用到祖父层的聚集。是以发生了聚集路径选择的问题:在聚集中查找有用路径,从而以小的聚集成本、快的速度发生成效。但聚集路径的选择是一个NP问题,只能经由过程启发式划定规矩,运用化方式来接近效果。

今朝运用较多的化方式有小父亲方式、缓存计较成效方式、分期清偿扫描方式、贪心算法等,可是其中大都算法仅适用于系统建立立方体的时辰,属于一次性物化路径生成,没有斟酌现实的查询执行情况和用户需求的变化,聚集的物化都是在查询起头之前界说好的,是以,可以称作是静态的聚集化。另外,其中的一些算法仅偏重斟酌聚集价格的或用户响应,未能加以有用综合。在这里,Route_Optimize是我们在贪心算法根蒂根基上进行的改良算法,用于动态地实现解决聚集方案之间的路径问题。其基本思绪是:简化聚集方案之间的关系,每个节点有且只有一个父节点,答理没有或有多个子节点,被淘汰的父子关系转变为虚关系,其约束条件是聚集方案关系图权值总和低。Route_Optimize算法的基本步骤为:

·输进带权值的聚集关系图R0;

·从聚集关系图R0的低层动身,逐层扫描各聚集方案节点Xi;

·选择毗连Xi权值小的父节点Qi为节点Xi的父节点;

·断开Xi与其它聚集方案父节点之间的毗连,以聚集方案节点Xi与Qi的聚集权值累计图R0的整体聚集成本C0;从而获得基于R0的小价格为C0聚集方案关系图。

在我们实现的数据仓库系统中,以上的算法模块哄骗C 得以实现,并在实验中和具体运用中均讲明:由于路径算法,聚集关系图获得了很年夜的简化,年夜年夜低于原先缺省的聚集成本,这为后来的物化选择算法提供了利便。

3结论

迄今为止,由于具体实现的复杂性和多变性,数据仓库技术在电力系统中的运用仍是十分有限的。本文针对现阶段电力企数据仓库建设中要害的聚集化问题,提出一种切实可行的实施方案,并在实验中和具体运用中收到了秀的效果,说明我们的方案是有用可行的。

参考文献:

[1]EfremG.Mallach.决议计划支持和数据仓库系统[M].电子工出书社,2001(4).

[2]袁林.基于数据仓库的辅助决议计划系统设计与实现[J].电力系统自动化,2001,25(21):25-27.

[3]:JohnWileyandSonslnc,1996.

[4]MichaelCorey.Oracle8i数据仓库[M].机械工出书社,2002(1).

[5]迟忠先,王红新,于凤友.数据仓库中聚集治理与导航策略[J].小型微型计较机系统,2002,26(12):1456-1461.

[6]张忠能,尤毅,程伟宁,倪逸,等.设计数据仓库[N].上海交通年夜学学报,1998,32(10):50-52.

[7]ZohraBellahsene.Schemaevolutionindatawarehouses[J].KnowledgeandlnformationSystem2002(4):283-304.

返回列表 | 打印本页
上一篇:电机保护误动、误发原因    下一篇:[行业技术文章]浅谈农网降损的技术措施
猜你喜欢
·数据仓库的建设 ·[行业技术文章]配电电缆截面的优化选择
·[行业技术文章]35kV农村电网优化方案的研究 ·[行业技术文章]浅谈电力系统的无功优化和无功补偿
·[行业技术文章]无功优化的典型问题 ·[行业技术文章]海乐山水电站的优化设计
·[行业技术文章]农网网架结构的优化 ·[行业技术文章]数据仓库在电力业务决策支持系统中的应
·[行业技术文章]低压配电网的无功优化补偿
 
同类推荐
·现代电力通信系统的数字同步网建设
·美双反大棒转向中国风电业
·虚拟仪器快速应用PCIExpress总线技术
·[带电作业专题]带电作业用小水量冲洗
·[行业技术文章]小水电站发电机运行维
·[行业技术文章]剩余电流保护装置知识
·[行业技术文章]绝缘子带电水清洗试验
·[行业技术文章]浅谈10kV交联聚乙烯电
·定价机制改革出“爆点”利市场挫民生
·一周综述:手机产品齐聚上演“三国之
关于我们 - 广告服务 - 使用手册 - 联系我们 - 法律声明 - 友情链接 - 删除或修改信息 - 网站地图
本站信息由会员自主添加,如涉及隐私等,网站不承担任何责任!如发现侵权违规等问题请发邮件至XXX#qq.com(#用@代替)或在线留言联系删除。
版权所有 1024商务网 浙ICP备12020213号-1 客服QQ: 微信号: