一种基于向量空间模型的文本分类方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:yhmlivefor46
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程.通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在相似文本分类中具有明显的优势.
其他文献
终于走进2008了,感受果然不同。过去的一年虽然不是2008,但身处北京,五官能感受的到处是2008,中国人期待百年的奥运盛会,虽说是“同一个世界”的“同一个梦想”.但北京人的踌躇满志
目的:改进和完善肾穿刺病理标本的固定方法和染色技术,提高染色的质量,增加染色效果的稳定性。方法:对本科室97例肾穿刺病理标本采用特殊固定方法,并对染色方法、染色步骤加以总结
胶质瘤由于其侵袭性生长的特性,手术切除效果不理想,放化疗效果也不佳。近年来,免疫治疗的策略凭借其治疗的靶向性而优势渐显,已成为胶质瘤治疗的新方向。
根据构建地下水资源管理信息系统的需要,介绍了采用组件软件技术在系统开发过程中,如何利用控制性水文地质钻孔地层数据自动绘制钻孔卡片、钻孔柱状图以及两者之间进行互查的
讨论了基于MPLS网络的VPN技术与移植.首先,通过介绍VPN的概念,引伸出VPN的模式.其次,介绍了MPLS VPN的网络概念和网络结构及与传统VPN网络的区别.最后,介绍从传统的VPN网络移
IDS(Intrusion detection system)和PC安全都是当前网络安全的热点。首先针对PC Firewall的弱点验证了IDS对于PC安全的必要性和重要性,然后在现有入侵检测技术的基础上提出了P
膀胱过度活动症评分量表(OABSS)作为一种常用的评估工具,可以简单、有效地评估膀胱过度活动症的症状。量表包括以下4个问题:1.白天排尿次数:您从早上起床到晚上入睡前的时间
介绍了一个智能过滤Agent的原理和实现方法,实验结果表明该Agent比一般搜索引擎查准率有较大提高.
'我右眼看不见了.'81岁的陈大爷突然右眼失明,家人赶紧带他到医院就诊。经过检查发现,陈大爷的右眼视网膜中央动脉阻塞,双眼视网膜动脉硬化Ⅱ级,腔隙性脑梗死。那么,
目的:分别观察口腔内正常黏膜组织、不典型增生组织以及鳞状细胞癌组织的细胞周期素D1(Cyclin D1)表达的不同之处,研究该物质在口腔黏膜鳞状细胞癌病变过程中出现的表达异常,探讨