统计学第四版聚类分析20xx年(编辑修改稿)内容摘要:

i ,m inijGxGxkl dDljki ,m a x)()(2 lklkkl xxxxD   ki liGx Gxijlkkl dnnD1lkmkl WWWD 213 27 统计学STATISTICS (第四版 ) 2020105  Nearest neighbor(最短距离法 )— 用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离  Furthest neighbor(最长距离法 )— 用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离  Centroid clustering(重心法 )— 用两个类别的重心之间的距离来表示两个类别之间的距离  betweengroups linkage(组间平均距离法 )— SPSS的默认方法。 是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离  Ward‘s method(离差平方和法 )— 使各类别中的离差平方和较小 , 而不同类别之间的离差平方和较大 类间距离的计算方法 层次聚类的应用 层次聚类 13 29 统计学STATISTICS (第四版 ) 2020105 【 例 131】 根据我国 31个省市自治区 2020年的 6项主要经济指标数据 , 采用层次聚类法进行分类 , 并对结果进行分析 层次聚类的应用 (实例分析 ) 31个地区的 6项经济指标 13 30 统计学STATISTICS (第四版 ) 2020105 用 SPSS进行层次聚类 第 1步 选择 【 Analyze】 下拉菜单 , 并选择 【 Classify Hierarchical Cluster】 , 进入主对话框 第 2步 将用于聚类的所有变量选入 【 Variable(s)】 ;把区分样 本的标签 (本例为“地区” )选入 【 Label Cases by】 ;若 对样本进行聚类,在 【 Cluster】 下选择 【 Cases】 (本 例选择对样本聚类 ),若对变量进行聚类,在 【 Cluster】 下选择 【 Variables】 第 3步 点入 【 Statistics】 选中 【 Agglomeration schedule】 , 点击 【 Continue】 回到主对话框 第 4步 点入 【 Plots】 选中 【 Dendrogram】 ,点击 【 Continue】 回到主对话框 13 31 统计学STATISTICS (第四版 ) 2020105 用 SPSS进行层次聚类 第 5步 点入 【 Method】 , 在 【 Cluster Method】 中选择类间距离的 定义方法 (本例选择 Ward’s method);在 【 Measure】 下选择 点间距离的定义方法 (本例使用 Squared Euclidean distance);在 【 Transform Values】 的 【 Standardize】 框中 选择否对原始数据进行标准化处理 (本例选择了 【 Z scores】 )。 点击 【 Continue】 回到主对话框 第 6步 点入 【 Save】 ,在 【 Cluster Membership】 下选择在原始数 据中保留分类结果,其中 【 Single solution】 表示指定要分成 类时各样本所属的类, 【 Range of solution】 表示指定要分成 最少类、最多类时各样本所属的类 (SPSS会将分类的结果以 变量形式保存到原数据窗口中 ),点击 【 Continue】 【 OK】 层次聚类 13 32 统计学STATISTICS (第四版 ) 2020105 SPSS的输出结果 (实例分析 ) 层 次 聚 类 过 程 的 步 骤 号 13 33 统计学STATISTICS (第四版 ) 2020105 SPSS的输出结果 (实例分析 ) 层次聚类过程的步骤号  第 1列是聚类的步骤号。 第 2列和第 3列给出了每一步被合并的对象 (这里是地区 )  首先把 31个地区各自作为一类 (共有 31类 )。 第 1步是把距离最近的两个地区 21(海南 )和地区 30(宁夏 )合并成一类。 在后面的步骤中 , 对于包含多个样本的新类别 , 实际上是用类中的一个样本来代表该类别 , 比如 , 第 2步被合并的是 21和地区 29(青海 ), 这里的 “ 21”实际上是指在第 1步中被合并的类别 , 只是用 “ 21”表示 21(海南 )所在的类别 13 34 统计学STATISTICS (第四版 ) 2020105 SPSS的输出结果 (实例分析 ) 层次聚类过程的步骤号  第 4列给出每一步被合并的两个类之间的聚类系数 (即距离 )。 距离按从小到大排列 , 越早合并的类距离越近。 21(海南 )和地区 30(宁夏 )之间的距离 , 而 类与地区 29(青海 )之间的距离  第 5列和第 6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类 , 0表示本步聚类的是原始的样本 , 第一次出现在聚类过程中 , 其他数字则表示第几步聚类生成的小类参与了本步聚类。 第 7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。 例如 , 在第 2步中 , 参与聚类的是第1步形成的小类 (21号样本所在的类 )和地区 29(青海 ), 第 5列的“ 1”表示 21号类是在第 1步中形成的小类 , 而 “ 0”表示地区 29(青海 )是第一次出现在本步聚类中的原始样本 , 第 7列中的 “ 10”表示这一类将在第 10步中与其他类别合并 , 其余类推 13 35 统计学STATISTICS (第四版 ) 2020105 Cluster Membership 13 36 统计学STATISTICS (第四版 ) 2020105 层 次 聚 类 的 树 状 图。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。