【摘 要】
:
计算机的自动化文本分类方式有基于知识工程的领域专家指导分类的研究方法,人为构造分类的方法,但是这个方法的缺陷就是过于依赖人工,凭借专家系统,不能够适用其他计算方式,还有一种是通过统计和机器学习不需要外部知识和资源,并且有较好的分类成果。所以,现在大多数人主要以第二种方式进行分析和研究工作,统计与机器学习的文本分类领域应用较广。大多数文本由于词义复杂,字义均有歧义,并主要关键字分散难以合并导致文本分
论文部分内容阅读
计算机的自动化文本分类方式有基于知识工程的领域专家指导分类的研究方法,人为构造分类的方法,但是这个方法的缺陷就是过于依赖人工,凭借专家系统,不能够适用其他计算方式,还有一种是通过统计和机器学习不需要外部知识和资源,并且有较好的分类成果。所以,现在大多数人主要以第二种方式进行分析和研究工作,统计与机器学习的文本分类领域应用较广。大多数文本由于词义复杂,字义均有歧义,并主要关键字分散难以合并导致文本分类无法更好的实现,再较早的特征选择方法更是基于对关键词的前提的独立假设,只能解决关键字分散以及高维度的问题,反而忽略了文本本来的语义信息。本文从文章中的语义角度,使用了LDA模型的特征提取方法。但是LDA模型并没有考虑数据输出,只是在原来文本的输入文本中对关键词分配相应的主体,由于留下非关键字,影响了分类的效能增大了主体分布的概率。改进LDA模型有联系的理论积淀。对于LDA模型提取样本从而对整篇文本导致线性能力偏差的问题,提出了使用关键词提取方法提取有效能的词语的首次过滤方式对LDA模型进行改善,重点地描述了使用关键词的处理的相关依据和如何将其实现的过程。进行实验并分析结果。此部分对挑选关键词选择MI算法,LSI算法和LDA主题模型,这种特征提取方法结合的LDA模型,在原文本的标准数据集上分别进行了对比和讨论,我们所说的算法逻辑是正确有效的。针对这种问题这种情况,这篇文章希望将LSI与LDA两种模型相互适应的方法,先把LSI特征提炼并把输入文本对应到低微空间,只留下关键词。然后LDA在更高效和更完善的空间上进行处理标签,获得比较完全的分布图,这就大大的提高了分类效果。该论文有图12幅,表19个,参考文献53篇。
其他文献
简要回顾了国际ITER项目厂址选择中地震问题的源起 ,介绍了ITER项目欧盟Cadarache和日本Rokkasho厂址涉及地震安全的主要问题 ,各方对厂址地震危险性的评价结果 ,以及中国对这两个厂址地震问题的认识与评价。
目的:比较腹腔镜与开腹行子宫肌瘤剔除术的疗效。方法:我院2007年1月~2009年12月行腹腔镜子宫肌瘤剔除术32例,同期行开腹子宫肌瘤剔除术35例,比较两组的手术时间、术中出血量、切
手术切除是肝癌最有效的治疗方法之一。在实际手术策略制定过程中,保证足够的肝切缘和保留更多的肝实质之间常存在矛盾。传统的二维成像无法精确判断肝内门静脉及肝静脉变异
分析2010年3~10月间收治的21例重症和危重症手足口病患者的临床特点,并探讨有效护理措施。临床特点:发热21例(100%),热型不规则;皮疹17例(80.9%),而其中4例死亡病例无明显皮疹;口咽部疤疹和
绩效考核作为绩效管理的核心流程和有效管理工具,关系到当前国内商业银行实现战略转型以及可持续发展的成功与否,其重要性不言而喻。一套科学合理高效的绩效考核体系,有助于实现银行内部人才资源的优化配置,激励员工提高工作效率和工作绩效,促进银行的核心竞争力的提升,从而实现自身战略愿景。本文以Z银行L支行的员工绩效考核为研究对象,运用调查问卷、数据分析等方法,对L支行现行的绩效考核体系进行了系统的分析,在此基
近年来,随着基础设施方面的发展不断提高,电力行业也因此遇到了发展机遇。其中较大容量的发电机组所占比例在不断提升,百万千瓦级机组的数量已经占据了世界的首位。随着国家
<正>非常荣幸能够到山水甲天下的桂林来和各位会面,也非常荣幸能够到广西师范大学来向大家讨教,一方面也把我所考虑的一些浅见和大家分享。中华民族的历史源远流长,文化多元