基于本体的文本分类的研究与实现

被引量 : 0次 | 上传用户:ljnbba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本,可以较大程度解决信息紊乱的现状,方便用户准确地定位所需要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。本体这一概念近年来被计算机领域广泛采用,并主要用在信息检索技术上,由于本体不仅是各个概念的集合,而且体现了各概念之间的互相联系。因此,将本体概念与文本分类技术相结合,很有研究意义。本文提出了一种基于本体的文本分类模型,该模型将本体中的概念与传统文本表示模型的特征词相匹配,提出了概念特征词、关键概念特征词的定义。通过使用概念特征词代替文本模型中的特征词,充分降低特征词维度,降低计算复杂度,并将文本表示为本体表示模型,保留了概念之间的关系,通过计算概念特征词之间的相似度,有效的把文本中蕴含的深层含义表示出来。并使用关键概念特征词,来突出文章中标题,及每段首尾句的信息度。同时根据文本表示模型的不同,提出了相应的本体匹配算法。本体建立中不仅考虑了各个概念的不同权重,同时在文本相似度的计算中也充分考虑了概念之间的层次结构关系,弥补了传统文本分类中的缺陷。通过与传统模型的实验对比和理论分析,验证了基于本体的文本分类模型的可行性,有效性。
其他文献
汽车的电动助力转向系统(ESP)是近些年出现的一种先进的汽车助力转向系统,该系统相比起传统的机械式转向系统和液压式助力转向系统有着节能、环保、减轻自重、可移植性好、结
<正> 人类民主制度如同其他事物一样,始终是沿着从低级向高级,从不完善到比较完善的过程发展的。在原始社会,有过被恩格斯称作的所谓“原始民主”;其末期还出现过军事民主制
形容词重叠式是留学生学习汉语时的语法项目之一,但是本文通过分析留学生的作文发现,形容词重叠式并未被留学生完全掌握。语言学界对于形容词重叠式的研究仅仅停留于本体理论
胸腔手术创伤大,术后切口疼痛既增加了病人痛苦,又影响了呼吸运动和有效咳嗽排痰,对术后恢复极为不利.我科于1999年10月至2000年7月对30例开胸手术病人应用胸膜外间隙置管间
陕北地区画像石墓出现于东汉中期,一经出现即具有较为成熟的工艺技法和地域特色。其工艺技法、内容配置继承自何处,如何而来,又怎样形成了其独特的地域特色是目前汉代画像石
医药行业是一个涉及国民健康、社会稳定和经济发展,需要运用高科技平台支持的朝阳行业。医药行业目前在中国还处于一个发展完善时期,这个行业还有很多需要整改的东西,国家也
冷弯成型是以金属薄板或带卷为原料,并通过多架装配了具有一定形状轧辊的成型机对坯料逐步进行弯曲变形,从而得到均一截面产品的塑性加工方法。当产品截面按照一定规律变化时
论《内经》对医学地理学的贡献湖北中医学院(430061)周安方童昌珍刘建荣医学地理学是研究人体生理、病理、治疗与地理环境之间关系的一门科学。虽然它是近代发展起来的一门新兴学科,但
促进区域经济协调发展是我国新时期经济建设的一个基本目标,也是吉林省需要解决的一个重要问题。合理的交通体系建设是实现区域经济协调发展的重要保证条件。随着社会经济的
近年来,随着人们越来越关注对学生自主学习能力的培养,学习策略培训的研究也成为了国内外学者研究的热点话题。在众多的学习策略中,元认知策略是一种较高层次的策略,它是指有