登陆注册
6874500000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 中国零售业竞争与发展的制度设计

    中国零售业竞争与发展的制度设计

    本书是一部研究在加入WT0的背景下,如何促进中国零售业公平竞争与进一步发展为主要内容的专著。它论述了零售业在国民经济中的地位、分析了零售业国际化的机理、回顾了零售业对外开放的过程、评述了对零售业开放的种种争议、研究了其他国家零售业开放的制度、详尽分析了各种零售业态的竞争格局及其原因、评价了零售业对外开放的市场绩效、预测了零售业发展的趋势、提出了面向“后WTO”时代的促进零售业进一步发展的制度设计。
  • 中国走向选择

    中国走向选择

    本书是经济形势分析与预测性著作,涉及通货紧缩、收入分配调整、股票市场、人民币的汇率、新经济、西部开发等热点话题。
  • 国际货运代理实务

    国际货运代理实务

    本书在第1版的基础上,对内容进行了适当调整,包括更新了相关数据、结合了新颁布的法律法规、增加了“案例分析”特色模块、扩充了复习思考题,力求既能使理论教学和业务实践相结合,又能充分反映当今国际货运代理领域的最新变化和动态,从而更加迎合高职高专教育培养适应生产、建设、管理、服务第一线所需要的高等技术应用型专门人才的需求,强化学生基础理论的创新、综合职业能力的培养和整体素质的提高。
  • 中国港口城市的互动与发展

    中国港口城市的互动与发展

    本书共分9章,主要内容有:介绍中国沿海城市发展港口的主要动力和相应的政策背景,探讨中国港口城市的四个关系,研究外部因素如何影响个别港口城市的发展,回顾和评论国家政策与体制对于港口城市发展的作用。
  • 近代以来上海城市规模的变迁(谷臻小简·AI导读版)

    近代以来上海城市规模的变迁(谷臻小简·AI导读版)

    本书从历史学的视角和方法出发,梳理公共租界、法租界、条约时期上海租界以及1937年到1949年的上海城市规模问题,以及中华人民共和国成立之后上海城市规模的变迁。
热门推荐
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 我们难忘的青春之易烊千玺

    我们难忘的青春之易烊千玺

    就是关于千玺的校园故事纯属虚构不喜勿喷四叶草和千纸鹤们可以看看哦
  • 刺忍薄锁根

    刺忍薄锁根

    鬼谷子眼里有隐隐哀伤,“英雄出少年,怎奈天妒英才,你命带大劫,不能涉红尘。要想安老,唯有一生清郁,留于此地,断念往事。”聂柘霁抬眼看他,“活一百岁又如何,最后的结局,都是死。”
  • 庄子全鉴

    庄子全鉴

    本书是道家学说的代表作品,也是中华传统文化中的一朵奇葩。《庄子》的作者并非庄子一人,据后世学者考证,其中“内篇”出自庄子之手,而“外篇”和“杂篇”就比较复杂了,多是庄子学说的继承者所作。庄子是奇人,《庄子》是奇书。博大精深的《庄子》,对后世思想史、哲学史和文学史的发展作出了不可估量的贡献。
  • 邪龙狂医

    邪龙狂医

    我有一把剑,可荡尽世间不平事我有一根针,可与阎王论生死胸藏浩然气,怀揣济世心,诛邪皆辟易,天下任我行。
  • 命典——白话遵生八笺

    命典——白话遵生八笺

    四月份的一天,几位朋友在一起海侃神聊,几乎同时为我们民族古老文化中精深奥妙的养生修命意识而激动。道家在充满浪漫色彩的仙术中获得长生不老的丹药,佛家在雷鸣般的静默中克服了生生死死的轮回,儒家在鞠躬尽瘁的奉献中求得永恒的归宿,岐黄家则在大自然的百草之中妹到却病延年的至灵之物。明朝奇人高濂,将古代这些养生的妙法、修命的秘术,囊括在他的奇著《遵生八笺》之中,给我们留下了一笔博大精邃、意味无穷、取之不尽、用之不竭的文化财富。一阵冲动激励着我们,要把这笔财富挖掘整理出来,于是《命典——白话遵生八笺》这个选题便产生了。
  • 公务员职业道德:基础知识(一)

    公务员职业道德:基础知识(一)

    本书内容包括:道德、职业道德的含义和作用,公务员职业道德的内涵和作用,公务员的责任、义务和纪律,公务员的世界观、权力观、事业观,中国古代如何加强“官德”修养,社会主义核心价值体系主要内容,党中央国务院关于公务员作风建设和反腐倡廉建设有关要求,国外公务员职业道德的主要内容、特点和加强公务员职业道德建设的做法,加强公务员职业道德建设的重要意义,加强公务员职业道德建设的原则和实现途径等。
  • 无罪年代

    无罪年代

    末日来临,人性变得一文不值,且看一群本来就没有人性的杀人犯们如何在末世逍遥
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 迷途、红颜祸水

    迷途、红颜祸水

    佛说:擦肩而过亦是缘同床共枕也是缘;情缘是缘孽缘是缘;源于前世的缘深缘浅、缘起缘灭。“我去前世我一定是杀人父母抢人妻女;奸杀捋掠无恶不作。要不然怎么会在今生换来这么多的‘孽缘’。”她这样想。“现在的男人都怎么了?都有病?倾国倾城的女神在这,他们不去理。却围在她这个外表看来又丑又邋遢的恐龙妹身边转?是他们的审美观很另类还是他们都眼瞎?”她这样想。一个男人左手捂着她的嘴,右手掐着她的脖子,冷冷的对她说:“想生还是想死”一个男人邪佞的笑着说:“跟我玩游戏,你还没有那个资格。”一个神童少年对她大喊:“我就是有人养没人教怎么样?要你管。”另一个人挑起她的下巴,轻浮的对她说:“你最性感的不是你的外表,而是你的大脑。”各种人生的交错,看似巧合其实却是早已注定。他们到底有何种缘由围绕在她的身边,真情还是假意?看似简单的背景原来很复杂,看似复杂的人生,其实也很简单。谜一样的人物,谜一样的事情。最后发现最大的谜团是自己。她将何去何从?她的感情将情归何处?让我们一起来当感情的福尔摩斯,走进‘迷途、红颜祸水’。