sewm20xx中文web信息检索评测内容摘要:

. j a v aT ok e nsN u t c h A n a l y s i s. j a v aN u t c h A n a l y s i sC o n s t a n t s . j a v aT o k e n . j a v aWordsegmentation  Create Word segmentation system that – Can handle large scale data(90G, ICTCLAS fail on this) – Can recognize more new words (adaptive to domains) – Can do disambiguation based on context – Favor on Information Retrieval and Feature selection Wordsegmentation: BUAASEISEG Wordsegmentation cont. 编号 中文字数 词数 新词数(未包含两者识 别一致的新词) BUAASEISEG 准确率 ICTCLAS 准确率 1 467 218 14 % % 2 514 267 8 % % 3 859 383 8 % % 4 598 306 5 % % 5 538 216 19 % % 6 3,926 2,097 200 % % 7 5,239 2,407 313 % % 8 4,003 1,923 246 % % 9 2,309 1,423 51 % % 新闻 2,976 1,390 54 % % 论文 15,477 7,850 810 % % 综合 18,453 9。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。