第11讲数据挖掘概述chapter11introductiontodatamining内容摘要:
:这是整个 KDD过程中很重要的一个步骤。 运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。 :对在数据挖掘步骤中发现的模式(知识)进行解释。 经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。 如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。 KDD过程(续) :将发现的知识以用户能了解的方式呈现给用户。 在上述步骤中,数据挖掘占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现出有关知识,决定了整个 KDD过程的效果与效率。 4. 数据挖掘功能 数据挖掘任务有两类: 第一类是描述性挖掘任务:刻划数据库中数据的一般特性; 第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。 概念 / 类描述:特征化和区分 概念 / 类描述 (class / concept description):用汇总的、简洁的、精确的方式描述每个类和概念。 数据特征化 (data characterization) :是目标类数据的一般特征或特性的汇总。 其中数据特征的输出形式有:饼图、条图、曲线、多维数据立方体、多维表等。 数据区分 (Data discrimination) :是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。 关联分析 ( 1) 定义:关联分析 (association analysis): 发现关联规则,这些规则展示“属性 —值”频繁地在给定数据集中一起出现的条件。 关联规则 (association rule): “ X Y”,即 A1 A2 Am B1 B2 Bn 关联规则分为两类:一类是“ 多维关联规则 ”( multidimensional association rule);另一类是“ 单维关联规则 ” (singledimensional association rule)。 ( 2) 实例 age(x, “20..29”) ine(X, “20K..29K”) buys(X, “CD_player”) [support = 2%, confidence = 60%] ( 1) 定义 分类 (classification): 是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程。 注:导出模型(或函数)是基于对 训练数据集 (即其类标记已知的数据对象)的分析。 ( 2) 分类模型的导出方式 分类规则( IFTHEN)、决策树、数学公式、神经网络等。 ( 3) 相关分析 (relevance analysis) 一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。 分类和预测 ( 1) 定义 聚类 (clustering): 与 分类 和 预测 不同,它主要分析数据对象,而不考虑已知的类标记。 一般情况下,训练数据中不提供类标记,因为不知道从何开始。 聚类可以用于产生这种标记。 ( 2) 聚类或分组的原则 “最大化类内的相似性、最小化类间的相似性” 对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。 所形成的每个簇可以看作一个对象类,由它可以导出规则。 聚类分析 ( 1) 定义 孤立点 (outlier): 数据库中的那些与数据的 一般行为 或 模型 不一致的 数据对象。 大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃,然而,在一些实际应用中(如欺骗检测、军事情报分析等),罕见点事件可能比正常出现的那些更有趣。 孤立点数据分析称为 孤立点挖掘 (outlier mining)。 ( 2) 孤立点的检测方法 第一种方法: 统计试验检测方法。 假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为孤立点。 第二种方法: 基于偏差点方法。 通过考察一群对象主要特征上的差别识别孤立点。 孤立点分析 ( 1) 定义 数据演变分析 (evolution analysis): 描述行为随时间变化的对象的 规律 或 趋势 ,并对其 建模。 演变分析包括时间相关数据的特征化、区分、关联、分类或聚类,最主要有三种演化分析方法: a) 时间序列数据分析 b) 序列或周期模式匹配 c) 基于类似性的数据分析 演变分析 数据挖掘过程模型是确保数据挖掘工作顺利进行的关键。 典型的过程模型有: ( 1) SPSS的 5A模型 ——评估 (Assess)、 访问 (Access)、 分析(Analyze)、 行动 (Act)、 自动化 (Automate)。 (2)SAS的 SEMMA模型 ——采样 (Sample)、 探索 (Explore)、 修正(Modify)、 建模 (Model)、 评估 (Assess)。 (3) 跨行业数据挖掘过程标准 CRISPDM——目前 CRISPDM仍在建立之中。 (4) 此外, Two Crows公司的数据挖掘过程模型,它与正在建立的 CRISPDM有许多相似之处。 5. 数据挖掘过程模型 6. KDD的分类 根据挖掘的数据库类型分类 根据挖掘的知识类型分类 根据所用的技术分类 根据应用分类 7. KDD的主要问题 数据挖掘结果的表示和显示 处理噪声和不完全数据 模式评估 —— 兴趣度问题 数据挖掘算法的有效性和可伸缩性 并行、分布式和增量挖掘算法 异种数据库和全球信息系统挖掘信息 E. 数据挖掘基本特征 KDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征: 海量数据集 数据利用非常不足 在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要 最终用户专门知识缺乏 有效的知识发现系统 为使知识发现系统更加有效,有几个软、硬件问题需要强调: 为使数据服务更加详尽,必须研究基础的体系结构、算法和数据结构。 解决存储管理中的新问题,开发有效的存储机制。 高层次的查询语言成为重要的研究课题。 描述多维对象的可视化工具在知识表示中将起重要作用。 F. 数据挖掘的发展趋势 视频和音频数据挖掘 科学和统计数据挖掘 数据挖掘的应用探索 可伸缩的数据挖掘方法 数据挖掘与数据库系统、数据仓库和 Web数据库系统的集成 数据挖掘语言的标准化 可视化数据挖掘 复杂数据类型挖掘的方法 Web挖掘 数据挖掘中的隐私保护与信息安全 可视化数据挖掘 数据可视化 数据挖掘结果可视化 数据挖掘处理过程可视化 交互式的可视化挖掘 数据可视化 数据挖掘结果可视化 Visualization of data mining results in SAS Enterprise Miner: scatter plots Visualization of association rules in MineSet Visualization of a decision tree in MineSet Visualization of cluster groupings in IBM Intelligent Miner 数据挖掘过程可视化 交互式的可视化挖掘 II. 数据挖掘系统 数据挖掘工具 数据挖掘过程 数据挖掘系统 如何选择数据挖掘系统 数据挖掘系统发展趋势 A. 数据挖掘工具 目前,世界上比较有影响的典型数据挖掘系统有: • SAS公司的 Enterprise Miner • IBM公司的 Intelligent Miner • SGI公司的 SetMiner • SPSS公司的 Clementine • Sybase公司的 Warehouse Studio • RuleQuest Research公司的 See5 • 还有 CoverStory、 EXPLORA、 Knowledge Discovery Workbench、 DBMiner、 Quest等。 B. 数据挖掘过程 步骤 步骤名称 描述 1 数据仓库 Data Warehouse 数据仓库管理用于决策支持的数据。 在该步骤内,数据从操作型系统以及第三方。第11讲数据挖掘概述chapter11introductiontodatamining
本资源仅提供20页预览,下载后可查看全文
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。
相关推荐
第19课资本的全球扩张与帝国主义瓜分世界
列强对世界瓜分 列强对世界瓜分 结合漫画 《 塞希尔 罗得斯 》 ,阅读课文 《 1914年的非洲 》 地图。 思考: (1)你能从图中看出最显著的“瓜分”特征吗。 (2)会带来怎样的后果。 (3)欧洲殖民者在非洲最早的殖民活动是什么。 (4)为何在 19世纪最后 30年,欧洲列强能够争夺最后一块 大陆 —— 非洲呈现白热化。 (5)从地理因素上,欧洲列强从沿海深入非洲内陆的有利 条件是什么。
高考历史小论文的应对方式
分论点 2: 然而新生产方式带来生机 史实: 这体现在人们去工厂做工,将手工业品销往国外,这有利于民族资本主义发展,有利于中国走向近代化 结论、升华: 从历史唯物主义的角度看,经济基础决定上层建筑,随着生产力的发展,加上外国资本主义的刺激,新生产方式取代旧生产方式是一种历史的必然,传统经济社会结构近代化带来的利才是历史的主题。 SOLO分类层次评价法 : 没有形成对问题的理解
社会资本推广大使渔光村静海楼互助委员会主席南区「爱心邨
5,275 住戶數目 : 4,100 人口 : 13,500 居民 : 約 8 成來自黃竹坑邨 (重建屋邨 ) 黃竹坑邨 石排灣邨 推動 4 間 非政府機構 結合 3 方 「民、商、官」力量 協助 2 期 遷入石排灣邨的居民 建立 1 個 和諧互助的社區 計劃四步曲 工作重點 (1) – 網絡建立 三層網絡 : 對象為石排灣邨居民 網 庫 網 友 網 主 登記石排灣邨居民的基本資料