网络新闻分类系统及个性化新闻网站的研究与应用

被引量 : 3次 | 上传用户:shijiancuowu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展及其影响力的不断扩大,网络上的信息量也随之不断增加。面对浩瀚如海的网络信息,依靠人工完成信息的分类已经无法满足实际的需求。其次,网站的人性化设计也成为网站管理者所关心的问题,一个具有人性化特征的网站势必会吸引更多的用户,会给网站带来更多的效益。本文基于上面的需求,引入Web文本挖掘技术来实现信息的快速分类,以及实现具有人性化特征的网站。首先,本文深入研究了中文文本自动分类所涉及到的相关理论和技术。其中包括网页信息抽取技术、文本分词技术、文本向量化技术、文本特征提取技术以及文本分类技术。通过分析与比较上述技术所涉及到的理论和算法,根据系统需求自行设计了网页信息抽取算法。择优选取了最大匹配分词算法、TF-IDF文本向量化算法、互信息量特征抽取算法以及KNN文本分类算法,并对互信息量算法进行了局部改进。其次,文文深入研究了Lucene全文检索系统,并在其基础上实现了中文文本分词功能,Lucene系统可以给系统提供可扩展的全文检索功能。基于上述选取的算法,本文利用Java和面向对象编程技术(设计模式等)结合Lucene平台开发了具有能够自动分类html和txt格式文本功能的文本自动分类系统,该系统提供了可扩展的接口,便于系统的扩展与改进。系统开发完成后,本文对系统利用国际评测标准(查全率、准确率以及F1测试值)对系统进行了测试并对测试结果进行了详细的分析。最后,本文通过研究与分析用户信息挖掘相关技术,自行设计了一种可以按照用户浏览爱好对网站页面进行自动排版的算法。在排版算法的基础上利用JSP和Struts技术实现了具有自动排版功能的个性化新闻网站。由于采用了Struts技术,该网站具有模块间的松耦合性,便于系统的扩展。
其他文献
本文以傅柯与费尔克拉夫的话语理论和热内特的副文本概念为框架,建立了一个译者话语系统,并以辜鸿铭《中庸》英译文为例,阐释了译者话语的功能,以及如何通过译者话语解读翻译
<正>为适应我国对外开放的新形势,发挥语言在开放经济中的重要作用,构建商务英语学科的理论体系,探讨语言在国际商务中的使用特点和规律,对外经济贸易大学将于2014年5月24-25
企业集团人力资源管理必须符合集团战略要求。企业集团内部人力资源管理分两个层次:集团层面、子公司层面。企业集团对子公司层面人力资源配置模式可分为适应型、输出型和综
肝细胞肝癌是消化系统常见病之一,通常临床上发现时已经属于晚期,手术难以根除,其次肝细胞癌对放疗、化疗不敏感,即使进行肝移植,术后复发率也较高,故其预后较差,因此,积极的
<正>意大利是殴洲古典歌剧和美声歌唱的故乡。意大利民族具有优秀的音乐传统,这是同意大利语有密切关系的。意大利语的发音规律为形成美声歌唱的技巧和风格提供了十分有利的
美国非裔桂冠女诗人丽塔.达夫唯一一部小说《穿越象牙门》与她的前辈女作家托尼.莫里森的第一部小说《最蓝的眼睛》形成了鲜明的互文性。然而,值得注意的是,《穿越象牙门》在
试论英汉文化对比研究沐莘英汉文化对比研究是从语言对比研究发展而来的。它应象英汉语言对比研究一样,逐步建立一个独立的学科──英汉对比文化学(E-CContrastiveCulturology)。就目前来说,如何开展英汉文
痛苦与幽默的交融──艾·阿·罗宾逊诗歌赏析李杨从美国内战之后,美国社会发生了巨大的变化。城市化,工业化及移民浪潮势头强劲。电话,电唱机,汽车等科技发明成果如雨后春笋,不断
由粉砂岩、粉细砂岩和细砂岩组成的低渗透储层,表现出强烈的脆性特征。和其他类型裂缝相比,构造微裂缝在这类储集层中往往占主导地位。构造裂缝与构造应力场有关,是在大地静
矿井提升设备是矿井生产的主要设备之一,是一套复杂的机械电气机组,是煤炭生产运输的主要工具。他是沟通井下生产与地表生产运输的纽带。因此,矿井提升设备是矿山生产中具有举足