几种不同存储形式下的数据挖掘问题(转载)

从原理上说,数据挖掘应该可以应用到任何信息存储方式的知识挖掘中,但是挖掘的挑战性和技术会因为源数据的存储类型的不同而不同。特别是,近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富,除了一些有通用价值的模型、构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究。本节将针对一些主要的数据存储类型中的数据挖掘的问题进行介绍。

    一个事务数据库是对事务型数据的收集。1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysis)作为商业应用背景的。此时的被挖掘的数据库是顾客放入购物篮的商品记录,挖掘的目的就是通过发现顾客购买商品之间的关联来指导商业决策制订的。基于这样的原因,也有人把Transactional Database翻译成交易数据库。现在看来,这种理解有其局限性。事实上,Transactional Database的挖掘问题,已经不仅可以直接应用到诸如采购、销售、市场调查等这些商业活动中,而且已经成为一个解决问题的通用框架。例如,我们可以把用户访问一个数据库或网站的行为组织成一个Transactional Database形式。因此,我们这里的Transactional Database还是指更宽泛的范畴。从事务数据库中发现知识是数据挖掘中研究较早但至今仍然很活跃的问题。通过特定的技术对事务数据库进行挖掘,可以获得动态行为所蕴藏的关联规则、分类、聚类以及预测等知识模式。

一、关系型数据库中的数据挖掘

    关系型数据库是由一系列数据表的组成的。它本身的发展是相当成熟的,它有成熟的语义模型(像实体-关系模型),有成熟的DBMS(像Oracle),有成熟的查询语言(像SQL语言),而且有一批可视化的工具可以使用或借鉴。随着关系型数据库应用的普及和深入,人们在思考更高层次地利用它的问题,那就是关系型数据库中的数据挖掘问题。从一个关系型数据库中,我们可以根据挖掘目标获得想要的知识类型或模式,如上面提高的广义知识、关联知识、类知识、预测型知识和特异型知识等。

    关于关系型数据库中的数据挖掘已经积累了很多方法和成果。事实上面提到的事务型数据库可以看作是关系型数据库的特例,它的研究成果可以通过改造被利用。目前的研究更倾向于针对关系型数据库的特点集成多种技术来解决实际的应用问题。

(1)多维知识挖掘问题

传统的事务数据库挖掘所研究的知识一般是单维(Single-Demension)的。例如,“购买计算机的人也购买打印机”这样的知识,它刻画了以“购买”行为作为聚焦点(维)的商品间的关联。但是,在关系型数据库中,仅有这样的知识可能还不够。例如,人们可能进一步想知道“什么样购买计算机的人也购买打印机的可能性更大?”,因此,象“收入高的人在购买计算机时也购买打印机”这样的知识更需要。由于关系型数据库可以存储包含收入情况等的客户基本资料以及客户购买记录,所以这样的知识是可以获得的。这样的知识是多维(Multi-Demension)的,因为它有两个聚焦点:购买和收入。另外,提到多维概念,可能自然会和多维数据库联系起来。的确,在数据仓库、OALP等研究中的多维数据库可以成为多维数据挖掘的更理想载体。

(2)多表挖掘和数量数据挖掘问题

我们认为,这是关系型数据库有别于传统的事务数据库挖掘中的两个重要问题。从逻辑上说,关系型数据库是一系列表的集合。因此,在关系型数据库的挖掘中,除了要考虑表内属性的关联外,也必须考虑表间属性的关联。传统的事务数据库挖掘所研究的技术和算法一般是基于单表的。因此,在关系型数据库挖掘中必须考虑多表的挖掘技术。另外,在关系型数据库中,可能具有数量属性(如工资)。

(3)多层知识挖掘问题

数据及其关联总是可以在多个不同的概念层上来理解它。联系我们前面描述的多层次广义知识挖掘问题,在一定的背景知识下,一个关系型数据库可以在多个概念层次上来挖掘相关的知识。1995年,Srikant和Agrawal建立了以广义知识挖掘框架来研究多层知识挖掘的思想,并提出了R-兴趣度等概念。另一个比较有代表性的工作是Han等对大型数据库的多层知识挖掘问题的研究。

(4)知识评价问题

1996年,Chen和Han发现按着Agrawal的规则发现理论进行强关联规则(Strong Association Rule)挖掘存在的问题。他们当时给出的例子是,在一个购物篮数据库中,通过Apriori算法发现了关联规则:buy(X,‘computer games’)=> buy(X,‘videos’)[support=40%, confidence=66%]。但是,事实上,计算机游戏和录象产品是负相关的,即购买了其中一种的客户实际上减少了购买另一种的可能性。因此,对传统的数据挖掘框架的知识评价问题,也是关系型数据库中数据挖掘走向实际应用必须要解决的问题。近年来,在关系型数据库所挖掘的知识的评价和改进方法的研究也很多。

(5)约束数据挖掘问题

数据挖掘系统在用户的约束指导下进行,可以提高挖掘效率和准确度。关于它的研究是一个很宽泛的课题。在可视化和交互式数据挖掘中,用户约束的使用和输入是可视化和交互式挖掘的前提。对关系型数据库而言,由于它的属性的复杂性(如大量数量属性存在)、属性关联的蕴涵存储以及多表或多层次概念等问题,约束数据挖掘问题就显得更为重要。

    关系型数据库中的数据挖掘是一个应用价值很高的研究领域,有许多课题需要进一步深入。而且它的研究不是孤立的,不仅需要借助于那些趋于成型的理论构架,而且已经和其它的数据存储类型,如事务数据库、数据仓库等研究相互交叉和补充。

二、数据仓库中的数据挖掘

    数据仓库中的数据是按着主题来组织的。存储的数据可以从历史的观点提供信息。面对多数据源,经过清洗和转换后的数据仓库可以为数据挖掘提供理想的发现知识的环境。假如一个数据仓库模型具有多维数据模型或多维数据立方体模型支撑的话,那么基于多维数据立方体的操作算子可以达到高效率的计算和快速存取。虽然目前的一些数据仓库辅助工具可以帮助完成数据分析,但是发现蕴藏在数据内部的知识模式及其按知识工程方法来完成高层次的工作仍需要新技术。因此,研究数据仓库中的数据挖掘技术是必要的。

    数据挖掘不仅伴随数据仓库而产生,而且随着应用深入产生了许多新的课题。如果我们把数据挖掘作为高级数据分析手段来看,那么它是伴随数据仓库技术提出并发展起来的。随着数据仓库技术的出现,出现了联机分析处理应用。OLAP尽管在许多方面和数据挖掘是有区别的,但是它们在应用目标上有很大的重合度,那就是它们都不满足于传统数据库的仅用于联机查询的简单应用,而是追求基于大型数据集的高级分析应用。客观讲,数据挖掘更看中数据分析后所形成的知识表示模式,而OLAP更注重利用多维等高级数据模型实现数据的聚合。从某种意义上讲,我们可以把数据挖掘看作是OLAP的高级形式,与此更接近的名词可能算是OLAM(联机分析挖掘)。由于数据仓库、OLAP和数据挖掘技术都是针对高级数据分析应用而提出的,因此早期他们经常放在一起研究。现在,随着研究的深入,它们不论是在研究还是应用上都已经有所侧重。

三、在关系模型基础上发展的新型数据库中的数据挖掘

    面向对象数据库、对象—关系型数据库(Object-Ralational Database)以及演绎等新型数据库也成为数据挖掘的新的研究对象。随着数据库技术的发展,这些数据库系统诞生并发展以满足新的应用需求。在这些新型数据库系统上的数据挖掘成为不可回避的挑战性课题。

四、面向应用的新型数据源中的数据挖掘

    一些面向新型应用的数据库,如空间数据库、时态数据库、工程数据库(Engineering Database)和多媒体数据库等,已经得到了充分的发展。这些新型应用需要处理和分析空间数据、时态数据、工程设计数据和多媒体数据等。这些应用需要高效的数据结构和可用的处理复杂结构、长变量记录、半结构或无结构数据的方法。例如,卫星图象可能是以光栅形式来表示数据的,而一个城市地图数据可能是矢量形式。这些光栅或矢量数据同样蕴涵着丰富的知识并且它们的挖掘技术有自己的特点。通过一个用于气候分析的卫星图象,我们可能需要知道海拔高度和气候之间的关联;通过一个城市地图,我们可能渴望知道高收入家庭与他们所处的位置有什么关系等。时态数据库总是包含时态相关的属性,这些数据对时间变化是敏感的。例如,股票数据记录了随时间变化的数据序列,我们通过它可以挖掘出数据的发展趋势,进而可以帮助我们制订正确的投资战略。在这些数据集或数据库上的知识发现工作为数据挖掘提供了丰富的研究及开发土壤。

五、Web数据源中的数据挖掘

    面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多,因为Web上的数据是复杂的。有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。

    Web挖掘(Web Mining)必须面对下面一些关键问题。

(1)异构数据源环境

Web网站上的信息是一个更大、更复杂的数据体。如果把Web上的每一个站点信息看作是一个数据源的话,那么这些数据源是异构的,因为每个站点的信息和组织都不一样。想要利用这种海量数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题。只有将这些站点的数据都集成到一个统一的视图上,才有可能获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。

(2)半结构化的数据结构

Web上的数据与传统的数据库中的数据不同,Web上的数据更多是半结构化的。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术。我们知道,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性,因此面向Web的数据挖掘是一项复杂的技术。XML(eXtensible Markup Language)是由万维网协会(W3C)设计的一种中介标示语言(Meta-markup Language),可提供描述结构化资料的格式。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。因此,XML能够使不同来源的数据很容易地结合在一起,因而使搜索异构数据成为可能,为解决Web数据挖掘难题带来了希望。

(3)动态变化的应用环境

首先,Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。而且这种高变化也体现在页面的动态链接和随机存取上。其次,Web上的用户是难以预测的。用户具有不同的知识背景、兴趣以及访问目的。最后,Web上的数据环境是高噪音的。研究表明,一个Web站点的数据可能只有不超过1%的信息是对特定挖掘主题是相关的。这些变数也是Web数据挖掘必须面对的问题。

参考文献:

Han J et al. Data mining:Concepts and techniques. Morgan Kaufmann Publishers,2001.
Agrawal R et al. A. Mining assocation rules between sets of items in large databases.In Proc. ACM SIGMOD Conf. on Management of Data. 1993: 207~216.

http://www.acm.org/sigmod/sigmod02/eproceedings.

Agrawal R et al. Fast algorithms for mining association rules in large databases. In Proc. 20th Int. Conf. Very Large DataBases, 1994: 478~499

Srikant R and Agrawal R. Mining generalized association rules. In Proc. 21st Int. Conf. Very Large DataBases, 1995: 407~419.

Han J et al. Discovery of multiple-level association rules from large databases, In Proc. 21st Int. Conf. Very Large DataBases. Zuiich, Swizerland. Sept. 1995: 420~431.

Brin S et al. Beyond market baskets: generlizing association rules to correlations. In Proc. 1997 ACM SIGMOD Int. Conf. Management Data. Tucson, USA. 1997: 265-276. Ahmed N et al. A Note on “Beyond market baskets: generlizing association rules to correlations.” SIGKDD Explorations. 2000,Vol. 1: 48~48.

Pei J et al. Can we push more constraints into frequent pattern mining? In Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining. Boston, USA. Aug. 2000.

Grahne G et al. Efficient mining of constrained correlated sets. In Proc. 2000 Int. Conf. Data Engineering. San Diego, USA. Feb. 2000: 512~521.

http://www.dmgroup.org.cn/zs.htm.

http://www.dmgroup.org.cn/ppt/XML%20Index&Join.ppt.
数据分析, 数据挖掘, 数据库, 数据

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击下方“内容举报”进行投诉反馈!
立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部