【摘 要】
:
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人
论文部分内容阅读
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本,可以较大程度解决信息紊乱的现状,方便用户准确地定位所需要的信息。本文的目的是开发一套基于语义网的文本分类系统作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。本文对文本分类在语义网中的应用进行了研究。在对文本特征提取的过程中,往往是名词和动词更能代表文档类别的信息,所以采取词性的特征提取方法能有效的降低特征向量的维度,特征词提取后统计特征词出现次数,以获得特征词权重。把文本用RDF规则表示成三元组的形式来描述网页上的各种信息和它们之间的关联,这项工作是后续处理的基础,具有重要意义。本文分析了传统KNN算法的不足之处是对样例库存储的数量依赖性较强,为了解决这一问题在KNN算法中加入权重,其意义在于主要部分起到的作用比次要部分的作用更大。基于语义网的文本分类系统能够更好的运用语义之间的关系进行准确的分类,本文提出了一种基于语义网的文本分类模型。本文选用了六个类来验证实验结果,分别为计算机类、植物类、动物类、饮食类、体育类、军事类等。最后,采用Microsoft VisualC++6.0作为开发平台完成了对文本分类系统的研发。分析和实验表明,本文所采用的特征提取方法能够很好的降低特征向量的维度,对选取的文本进行了实验,实验结果表明本文提出的算法能够更好的对文本进行分类,对大型网站新闻分类具有较强的辅助作用。
其他文献
由于我国的证券市场制度不完善,上市企业股票价格与其价值偏离的现象比较严重,随之产生的投机行为为二级市场带来了一定的泡沫因素。但是,随着市场经济体制和股权分置改革的
地方财政支出与经济增长的关系向来是经济学界研究的热点问题之一,而经济增长质量的一个重要体现就是TFP(全要素生产率)增长率的高低,因此研究地方财政支出对TFP增长率的影响
研究性学习课程是在素质教育和创新思维观念下出现的一种全新理念的课程。研究性学习课程以学生发展为本,更有效地突出学生学的方式,形成一种让学生主动探求知识并重视解决实
从2004年7月18日《中国妇女报》推出全国第一家手机报起,手机报就显出强大的生命力。相对于传统报纸,手机报具有传播速度快、随时随地接收、传播功能全面、互动性强等多方面
创世神话是一个世界性的神话母题,本文对苗族活态史诗《亚鲁王》的创世神话进行比较神话学研究,以揭示创世神话的共同特征及其生成原因。
随着工业化和城镇化进程的加快,失地农民的数量逐渐增多,因失地农民综合素质普遍偏低,缺乏就业竞争力;观念转变缓慢,择业观念落后;就业渠道窄、就业稳定性差等问题,造成心理
代码混淆是一种有效增加攻击者逆向分析难度和攻击代价的软件保护技术。目前对于代码混淆技术的研究已经颇为成熟和完善,但是代码混淆算法有效性评估是代码混淆研究中亟待解
经济社会的纵深发展加强了各区域、各地方政府间的联系,同时也催生了越来越多的跨区域公共问题,超出了单个地方政府的应对能力,迫使政府寻求合作治理之路,使得合作治理也因此
以1978年的改革开放为起点,中国开始了当代社会转型的进程,中国开始了从农业的、乡村的、封闭的半封闭的传统社会,向工业的、城镇的、开放的现代型社会的转型,社会结构作为转
<正>抑郁症是以持续情绪低落,且伴有晨重夜轻或自伤自杀等特征的一种严重的精神疾病[1,2]。马辛等[2]对北京市抑郁症的患病率调查发现,抑郁症的时点和终生患病率分别为3.3%和