【摘 要】
:
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别.为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法.多
【机 构】
:
中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心
论文部分内容阅读
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别.为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法.多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布.基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题.实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题.实验系统证明了新方法的有效性
其他文献
1987年10月发生的世界性股灾让美、英、德、法、日五国的五个机构聚首东京,成立了国际研究俱乐部基金。这个基金早期得到日本大藏省和通产省的支持,并从各个方面得到资助,但资金
加强基层工会在人力资源管理中的作用意义重大。本文首先简要分析了基层工会在人力资源管理中的作用,接着提出了基层工会在人力资源管理中的实践策略,以期能在通过基层工会的
目的探讨伤寒Vi多糖菌苗接种率与甲型副伤寒爆发的关系。方法将广西1995—2004年间甲型副伤寒爆发和伤寒Vi多糖疫苗使用情况等数据进行描述性分析,将甲型副伤寒爆发次数和伤寒
2009年中国经济发展的趋势还要进一步观察,总体还是有信心的,需要提醒的是,现在在逆风的环境下我们的速度只要适度就可以了,不能硬拼,这样可以避免消耗过大.刺激过度.留下隐患。
记得在电影院里看《蝙蝠侠-黑夜骑士》,那个检察官在法庭上把犯人的抢夺下来说他的枪是中国制造,下次想要办成事的话最起码也要找个美国制造的.
本文提出了一种领域相关的汉语文本句法语义分析方法.根据领域文本的特点,该方法将浅层句法分析和深层句法语义分析结合在了一起.其浅层句法分析部分采用有限状态层叠的方法,
目的探讨细胞因子TNF-α、sICAM、IL-6在正常婴幼儿中的表达水平及其在支气管炎中的临床意义。方法应用酶联免疫吸附法(ELISA)对60例支气管炎患儿血清TNF-α、sICAM及IL-6的水
在大众的人际沟通中,一个社交圈子所聊的话题当中必定会出现一个话语主控人。那么这个人要么事领导,要么是在这个圈子中相对的长者。我们的播音员主持人在这方面更要表现的尤
美国哈佛大学工程师基于折叠立方体研制出一种可变形的新型材料,它可通过编程改变外形、大小和硬度,可压扁成平板也可恢复原状。
本刊讯11月23日,由国际能源署(IEA)主持研究的《2009世界能源展望》在北京举行新闻发布会。来自中国科学院、清华大学国情研究中心的胡鞍钢教授、国家发改委能源研究所的韩文科