microsoftsqlserver20xxr2数据挖掘算法-挖掘模型内容(编辑修改稿)内容摘要:

当在 Business Intelligence Development Studio 中浏览模型时,可以使用 Microsoft 一般内容树查看器 查看信息, Business Intelligence Development Studio 和 SQL Server Management Studio 中均提供了此查看器。 Microsoft 一般内容查看器通过使用挖掘模型内容架构行集中可用的同一信息,来显示模型中的列、规则、属性 (property)、属性 (attribute)、节点以及其他内容。 内容架构行集是用于呈现数据挖掘模型内容详细信息的通用框架。 您可以在任何支持分层行集的客户端中查看模型内容。 Business Intelligence Development Studio 中的此 查看器在 HTML 表查看器中呈现这些信息,这些信息将以一致的格式表示所有模型,使得您所创建模型的结构更易于理解。 有关详细信息,请参阅 使用 Microsoft 一般内容树查看器查看模型详细信息 22。 返回页首 查询挖掘模型内容的工具 若要检索挖掘模型内容,您必须针对数据挖掘模型创建一个查询。 创建内容查询的最简便方法就是在 SQL Server Management Studio 中执行以下 DMX 语句: 复制 SELECT * FROM [mining model name].CONTENT 有关详细信息,请参阅 查询数据挖掘模型( Analysis Services – 数据挖掘)3。 还可以通过使用数据挖掘架构行集来查询挖掘模型内容。 架构行集是标准的架构,客户端可以用来发现、浏览和查询有关挖掘结构和模型的信息。 您可以通过使用 XMLA、 TransactSQL 或 DMX 语句来查询架构行集。 在 SQL Server 2020 中,您还可以通过启动与 Analysis Services 服务器的连接并查询系统表来访问数据挖掘架构行集中的信息。 有关使用 SELECT 语句查询16 数据挖掘架构行集的详细信息,请参阅 故障排除工具( Analysis Services 数据挖掘) 23。 返回页首 请参阅 参考 Microsoft 一般内容树查看器(数据挖掘设计器) 24 概念 数据挖掘算法( Analysis Services – 数据挖掘) 25 17 关联模型的挖掘模型内容( Analysis Services – 数据挖掘) SQL Server 2020 R2 本主题讲述使用 Microsoft 关联规则算法的模型特有的挖掘模型内容。 有关与适用于所有模型类型的挖掘模型内容相关的常规术语和统计术语的说明,请参阅挖掘模型内容( Analysis Services 数据挖掘) 1。 了解关联模型的结构 关联模型结构非常 简单。 每个模型均具有表示该模型及其元数据的单一父节点,且每个父节点均具有项集和规则的平面列表。 项集和规则不是按树组织的,它们的顺序是项集在先、规则在后,如下面的关系图所示。 每个项集均包含在其自己的节点中 (NODE_TYPE = 7)。 “ 节点 ” 包含项集定义、含有此项集的事例的数目以及其他信息。 每个规则也包含在其自己的节点中 (NODE_TYPE = 8)。 “ 规则 ” 说明项目关联方式的一般模式。 规则类似于 IFTHEN 语句。 规则左侧显示的是一个现有条件或条件集。 规则右侧显示的是数据集 中的项,该项通常与左侧的条件相关联。 注意 如果要提取规则或项集,可使用查询仅返回需要的节点类型。 有关详细信息,请参阅 查询关联模型( Analysis Services – 数据挖掘) 2。 关联模型的模型内容 本节仅针对与关 联模型相关的挖掘模型内容中的列给出详细信息和示例。 有关架构行集中通用列(例如 MODEL_CATALOG 和 MODEL_NAME)的信息,请参阅挖掘模型内容( Analysis Services 数据挖掘) 1。 MODEL_CATALOG 存储模型的数据库的名称。 18 MODEL_NAME 模型的名称。 ATTRIBUTE_NAME 与此节点对应的属性的名 称。 NODE_NAME 节点的名称。 对于关联模型,该列包含的值与 NODE_UNIQUE_NAME 列相同。 NODE_UNIQUE_NAME 节点的唯一名称。 NODE_TYPE 关联模型仅输出以下节点类型: 节点类型 ID 类型 1(模型) 根节点或父节点。 7(项集) 项集,或属性 值对的集合。 示例: Product 1 = Existing, Product 2 = Existing 或者 Gender = Male. 8(规则) 用于定义项相互关联的方式的规则。 示例: Product 1 = Existing, Product 2 = Existing Product 3 = Existing. NODE_CAPTION 与节点关联的标签或标题。 项集节点 逗号分隔的项列表。 规则节点 包含规则的左右两边。 CHILDREN_CARDINALITY 指示当前节点的子节点的数目。 父节点 指示项集与规则数目的总和。 19 注意 若要获取对项集和规则计数的明细,请参阅该模型根节点的 NODE_DESCRIPTION。 项集或规则节点 始终为 0。 PARENT_UNIQUE_NAME 节点的父节点的唯一名称。 父节点 始终为 NULL。 项集或规则节点 始终为 0。 NODE_DESCRIPTION 节点内容的用户友好说明。 父节点 包括一个逗号分隔列表,该列表包含有关该模型的以下信息: 项 说明 ITEMSET_COUNT 模型中所有项集的计数。 RULE_COUNT 模型中所有规则的计数。 MIN_SUPPORT 为任何单个项集找到的最小支持。 注意 该值可能不同于为 MINIMUM _SUPPORT 参数设置的值。 MAX_SUPPORT 为 任何单个项集找到的最大支持。 注意 该值可能不同于为 MAXIMUM_SUPPORT 参数设置的值。 MIN_ITEMSET_SIZE 最小项集的大小,由项目的计数表示。 值为 0 指示 Missing 状态被视为独立项目。 注意 MINIMUM_ITEMSET_SIZE 参数的默认值为 1。 MAX_ITEMSET_SIZE 指示找到的最大项集的大小。 注意 该值受创建模型时为 MAX_ITEMSET_SIZE 参数设置的值的约束。 该值永远不可大于、但可小于为该参数设置的值。 默认值为 3。 MIN_PROBABILI 为模型中的任何单个项集或规则检测到的最小概率。 20 TY 示例: 注意 对于项集,该值始终大于创建模型时为 MINIMUM_PROBABILITY 参数设置的值。 MAX_PROBABILITY 为模型中的任何单个项集或规则检测到的最大概率。 示例: 1 注意 没有参数来约束项集的最大概率。 若要消除出现过于频繁的项目,请改用 MAXIMUM_SUPPORT 参数。 MIN_LIFT 该模型为任何项集提供的最小提升量。 示例: 注意 了解最小提升可帮助您确定对任何一个项集的提升是否有效。 MAX_LIFT 该模型为每个项集提供的最大提升量。 示例: 注意 了解最大提升可帮助您确定对任何一个项集的提升是否有效。 项集节点 项集节点包含一个项目列表,该列表显示为一个以逗号分隔的文本字符串。 示例: Touring Tire = Existing, Water Bottle = Existing 这表示同时购买了旅行车轮胎和水瓶。 规则节点 规则节点包含由箭头分隔的规则的左右两边。 示例: Touring Tire = Existing, Water Bottle = Existing Cycling cap = Existing 这意味着如果某人买了旅行车轮胎和水瓶,他还可能买了自行车运动帽。 NODE_RULE 描述节点中嵌套的规则或项集的 XML 片段。 父节点 空白。 项集节点 空白。 21 规则节点 包含关于规则的其他有用信息的 XML 片段,这些信息包括支持、置信度、项目数量以及表示规则左侧的节点的 ID 等。 MARGINAL_RULE 空白。 NODE_PROBABILITY 与项集 或规则关联的概率或置信度分数。 父节点 始终为 0。 项集节点 项集的概率。 规则节点 规则的置信度值。 MARGINAL_PROBABILITY 与 NODE_PROBABILITY 相同。 NODE_DISTRIBUTION 根据节点是项集还是规则,该表包含的信息可能会有很大不同。 父节点 空白。 项集节点 列出了项集中的每个项目以及概率和支持值。 例如,如果项集包含两个产品,则将列出每个产品的名称,同时还会列出包括每个产品的事例的计数。 规则节点 包含两行。 第一行显示规则右侧(预测项目)所具有的属 性以及置信度分数。 第二行为关联模型独有,包含一个指向位于规则右侧的项集的指针。 在 ATTRIBUTE_VALUE 列中,将该指针表示为仅包含右侧项目的项集的 ID。 例如,如果规则为 If {A,B} Then {C},则该表包含项目 {C} 的名称,以及含有项目 C 所在项集的节点的 ID。 在根据项集节点确定总共有多少个事例包含右侧产品时,该指针很有用处。 遵循 If {A,B} Then {C} 规则的事例是 {C} 的项集中列出的事例的子集。 NODE_SUPPORT 支持此节点的事例的数 目。 父节点 模型中的事例数。 项集节点 包含项集中所有项目的事例的数目。 22 规则节点 含有规则中包含的所有项目的事例的数目。 MSOLAP_MODEL_COLUMN 根据节点是项集还是规则,包含不同的信息。 父节点 空白。 项集节点 空白。 规则节点 包含规则左侧项目的项集的 ID。 例如,如果规则为 If {A,B} Then {C},则该列包含仅含有 {A,B} 的项集的 ID。 MSOLAP_NODE_SCORE 父节点 空白。 项集节点 项集的重要性分数。 规则节点 规则的重要性分数。 注意 项集和规则的重要性的计算方法不同。 有关详细信息,请参阅 Microsoft 关联算法技术参考 3。 MSOLAP_NODE_SHORT_CAPTION 空白。 请参阅 概念 挖掘模型内容( Analysis Services 数据挖掘) 1 Microsoft 关联算法 4 查询关联模型( Analysis Services – 数据挖掘) 2 23 聚类分析模型的挖掘模型内容( Analysis Services – 数据挖掘) SQL Server 2020 R2 本主题介绍使用 Microsoft 聚类分析算法的模型特有的挖掘模型内容。 有关所有模型类型的挖掘模型内容的一般说明,请参阅 挖掘模型内容( Analysis Services 数据挖掘) 1。 了解聚类分析模型的结构 聚类分析模型的结构很简单。 每个模型均具有表示该模型及其元数据的单一父节点,且每个父节点均具有分类的平面列表 (NODE_TYPE = 5)。 下图显示了此组织。 每个子节点均表示一个分类,并包含有关该分类中事例属性的详细统计信息。 这包含该分类中事例数的计数以及将该分类与其他分类区分开来的值的分布。 注意 您无需遍历节点来获取分类的计数或说明,该模型 父节点也会对分类进行计数并列出分类。 父节点包含有用的统计信息,用于描述所有定型事例的实际分布。 可在嵌套表列 NODE_DISTRIBUTION 中找到这些统计信息。 例如,下表显示了 NODE_DISTRIBUTION 表中的若干行,这些行描述了您在 数据挖掘基础教程 2中创建的聚类分析模型 TM_Clustering 的客户人口统计信息的分布: ATTRIBUTE_NAME ATTRIBUTE_VALUE SUPPORT PROBABILITY VARIANCE VALUE_TYPE Age 缺少 0 0 0 1(缺失) 24 Age 593 12939 1 554 3(连续) Gender 缺少 0 0 0 1(缺少) 性别 F 6350 479 0 4(离散) Gender M 6589 521 0 4(离散)。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。