【摘 要】
:
九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在众多而且复杂的文本中掌握最有效的信息始终
论文部分内容阅读
九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在众多而且复杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,新闻识别,机器翻译,论文文摘,信息过滤,反垃圾邮件等任务。在本设计中,我实现了一个文本分类系统,该系统分为两大模块,一个是训练模块,一个是分类模块。在训练模块中包括以下部分。(1)中文文本的预处理,就是对文本进行分词。(分词采用中科院开源分词组件)(2)特征选取,实现了信息增益、互信息、期望交叉熵、文本证据权重、右半信息增益以及统计。(3)权重计算,我们知道传统的特征权值算法TF*IDF只关心了词出现的频率而没有涉及到特征项和类别的关系。系统从这方面进行了改良。实现了传统的TF*IDF、改良后的TF*DIFF和TF*IDF*DIFF的权重算法。分类模块主要是构造一个K近邻分类器,然后对分类集合里的文本使用分类器,通过前面设定好的参数等进行分类,最后对分类结果进行判断,统计正确率的过程。本文不仅实现了18种算法的组合效果,并且分析出一种最优的算法组合来提高准确率。
其他文献
目的:探讨中医综合疗法治疗颈椎病(神经根型)的疗效。方法:选取240例颈椎病(神经根型)患者,随机分为观察组和对照组各120例。对照组给予常规疗法;观察组给予中医综合疗法,疗程2周。
<正>浙江省慈溪市周巷农产品专业合作社联合社成立于2014年11月,注册资金318万元,涵盖周巷镇腌制蔬菜、早熟蜜梨、创汇蔬菜、畜禽产品等主导产业,拥有核心生产基地6500多亩,
对主要用FY-2C/D卫星并融合其他观测资料反演的云顶高度与多普勒雷达回波顶高的关系作了初步探讨。通过对20个主要由积层混合云和层状云造成的降水个例总数万个样本的统计分析
目的探讨盐酸丁卡因喷雾麻醉在胃镜检查中的应用及护理,以评价盐酸丁卡因喷雾麻醉的临床应用价值,提高患者满意度。方法以2013年6月至2014年6月我院收治的行胃镜检查的108例
目的探究HIV感染患者的手术护理配合和职业防护的良好方法。方法选取我院在2010年5月至2014年6月收治的HIV携带者及艾滋病患者25例,按照不同护理实施方案分为对照组和观察组,
五峰山长江大桥北锚碇沉井基础长100.7m、宽72.1m、高56m,沉井平面尺寸大,下沉深度深,为目前世界规模最大沉井。沉井下沉施工为本工程的关键工序,也是施工风险最大的工序,本
目的对临床中采用培菲康联合美沙拉嗪治疗溃疡性结肠炎的效果进行观察。方法选取2012年1月至2014年1月,我院收治的溃疡性结肠炎患者178例,回顾性分析临床资料,随机分成两组,
目的观察中药热熨疗法对产后乳房胀痛的治疗效果。方法将76例乳房胀痛产妇随机分为对照组(n=37)与观察组(n=39),对照组接受传统的常规护理,观察组在此基础上采用中药热熨乳房
南疆塔里木绿洲是我国高产棉区,近年来该地区高产棉田出现过量施氮的现象。氮肥的不合理施用不仅降低氮素利用效率,提高了棉花生产成本,还造成了潜在的环境问题。本文通过200
新型可再生绿色能源及能量高效清洁储存与转化技术的研发是未来社会可持续发展的关键因素。能量密度高、环境友好的氢能是极具发展潜力的新型能源,氢的高效制取和储存是氢能