基于Web内容的用户兴趣挖掘技术研究

来源 :西安邮电学院 | 被引量 : 0次 | 上传用户:tnzx911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文着重从以下几方面进行了研究: (1)关键字提取技术。基于复杂网络理论中的小世界网络模型,提出一种新的关键字提取方法。主要引入小世界网络模型理论中的平均最短路径长度变化量和簇系数变化量来刻画分词的重要性,进而通过适当计算获得文本中的关键字。 (2)文本相似性度量。本文提出的一种新的基于语义的文本相似性度量方法,该方法利用了《知网》的词语语义相似度计算工具。首先计算不同文本中关键字之间的语义相似度,然后进行统计得到文本相似度。该方法有效地结合语义知识,减少了同义词对计算结果的干扰并降低特征项数,为后续的文本聚类奠定良好的基础。 (3)文本聚类技术。基于复杂网络理论中的社团结构发现方法提出一种无监督的文本聚类算法。通过计算每一对文本的相似度,我们构造了一个文本相似关系图,然后使用新的图聚类算法-Newman算法有效地识别文本簇。 (4)兴趣表示和提取。本文提出基于加权特征向量的用户兴趣表示和提取方法。特征向量的元素采用关键字表示。通过统计关键字在文本簇中出现的情况,得到关键字的权值,从而有效地分析出用户兴趣。为了测试兴趣挖掘方法的效果,我们设计和实现了一个兴趣挖掘实验系统,该系统实现了关键字提取、聚类分析以及兴趣提取的算法。核心算法的实验结果表明相关算法是有效的。
其他文献
互连网络的可靠性是衡量一个互连网络性能优劣的重要参数。优秀的网络模型应该具有良好的可靠性,使得该网络在部分节点或链路出现故障时,剩余的非故障节点或链路仍能进行高效
随着现代机械加工和机械传动的发展,在生产实践活动中常常会碰到用繁琐的函数表达式表示的复杂曲面,也会出现一些根本就不能用解析表达式描述的曲面,甚至由于知识产权的问题,使得
随着Internet的发展,越来越多的个人、企业、机构组织等都接入了Internet。人们通过Internet可获得最新的信息,了解行业的发展情况,提高工作的效率等。Internet在经济、政治
软件测试是保证软件质量及可靠性的关键,软件测试的开销常常占整个工程预算的很大比重。目前,GUI程序已经得到了广泛的使用,进行有效的GUI测试变得十分重要,但对GUI测试的研
21世纪是生命科学研究的新时代,是系统生物学的时代。系统生物学以系统的观点,运用工程和计算机技术和各种先进的生物学研究手段研究细胞中所有基因和蛋白质来解释生命的奥秘。
随着网络技术的飞速发展,网络安全问题日益突出。入侵检测系统处理能力的缺乏引发了入侵事件的漏报或误报,提高入侵检测系统的检测速度和检测准确率是目前急需解决的关键问题。
随着互联网技术的飞速发展,如今的网络在线数据以短文本的形式呈爆炸性趋势增长。话题检测与跟踪技术就是为了应对日益严重的互联网信息爆炸问题提出的一种信息处理技术,对网
随着我国电信改革的进一步深化,以及通信技术的进步和基础设施建设的逐步完善,电信市场新竞争格局业已形成。来自国内外的竞争压力,使中国电信运营商意识到,必须对业务经营信
P2P(Peer-to-Peer)网络已经成为Internet上最流行的应用,但是节点的自私行为和物理网络因素制约了P2P网络的进一步发展。本文以提高P2P网络可用性为目标,在应用模式方面应用机
生物电阻抗法测量脂肪是目前广泛使用的方法。但现有的人体脂肪仪所使用的测量模型都是把人体躯干部看成整体,不能反映躯干部脂肪的分布情况。而且大部分脂肪仪基于单片机,系统软硬件功能的可扩展性、数据存储能力受到很大的限制,数据分析功能较弱。针对上述问题,本文建立了一种人体阻抗模型,该模型把人体躯干部划分成四部分,并对分段阻抗的计算公式进行推导,在此基础上设计并实现了一种基于ARM处理器和嵌入式LINUX操