sewm20xx分类任务系统说明内容摘要:

由于网页中有部分超常的英文字符以及一些乱码,分词系统会报错并且停止。 –针对这个问题,我们对这些异常文件另外处理,采用北大天网提供的分词程序。 江西师范大学网络应用研究所 特征选择  对于训练集 example1,共有 166241个词,根据词频,滤掉了那些词频小于 2或者大于 8000的词,剩下 74258个。  对于 example2,也采用相同的操作,剩下 12648个词。  对两个训练集合,都采用卡方统计进行特征选择,取了 CHI较大的前 8000个特征词。 江西师范大学网络应用研究所 分类模。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。