面向博客的相关检索技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:JockWang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客是Web2.0的典型应用之一。起初,博客作者将其每天浏览网站的心得和意见记录下来,并予以公开的方式给其他人参考和遵循。但随着博客的快速扩张,它的目的与最初已相去甚远。由于沟通方式比电子邮件、讨论群组更简单和容易,博客已成为家庭、公司、部门和团队之间越来越盛行的沟通工具,因此它也逐渐被应用在企业内部网络。在内容上,博客中的信息相对于普通的网页和论坛来说,更为专业化和个性化。因此,对于博客中相关信息的检索和分析变得越来越重要。全球各大门户网站都推出了自己的博客产品,各大搜索服务公司也推出了针对于博客的搜索服务。但目前对博客的研究还处于起步阶段,研究者更多将博客搜索与普通网页搜索划等号。本文正是在这一研究背景和环境下,主要对与博客相关的检索方法和方式进行了研究。首先,本文对目前博客检索的研究状况和博客的特点做了一定的分析。然后,针对博客内容的各项特点提出了认知注意衰减模型、博客角色模型、时间与查询相关性模型以及基于角色的检索框架。   首先,博客是一种以网页形式存在的日志。因此,在一定程度上大部分的博客作者都希望自己的文章能够有更多的读者。由于人类处理信号存在一个衰减的过程,这样越在后面出现的信息越不容易引起人们的注意。一般来说,博客作者往往把博文的重要内容放置在前部,采用开门见山的书写方式。根据这一思想,本文提出了基于认知注意衰减的语言模型。该模型通过衰减函数有效模拟了人们的文档阅读过程,从而获得了更为准确的查询词在文档中的权重信息。   其次,博客是一种表达博主个人看法和意见的自媒体。具有同一行为的博客作者很可能对某项事物具有相同的兴趣和爱好。因此,本文提出了博客角色这一概念。对于检索中的每一个查询,实际上博客作者与该查询具有一定的语义关系。我们把这种语义关系称为博客角色。进而,本文提出了一种基于博客角色类别的检索模型。该模型与基于认知注意衰减的语言模型相结合,大大提高了检索的效果和精度。   第三,博客的日志形式是以博文书写的时间进行安排。因此,时间信息是博客一个重要的特征。对于某些突发事件的查询,往往就和时间具有一定的关联。本文在对查询依据时间信息进行分类的基础上,提出了基于时间信息的查询结果优化迭代算法。该算法可以有效提高与时间信息相关查询的检索效果。   最后,博客是依照博客作者进行组织和管理。由于博客是以个人为组织单位,因此,博客检索在很大程度上不同于普通的网页检索。本文根据博客的自身特点,将博客角色信息和时间信息引入到博客检索中,提出了一种基于博客角色类别的检索结果呈现模式。在该模式下,用户可以得到博客角色的分类信息,并可以准确知道该查询都是哪些角色类别的博客关心或与之相关,以及相关的角色类别在时间上的分布特点。
其他文献
目前国内电信运营领域正在发生着革命性的变化,伴随着电信业重组的启动,标志着全新的全业务运营竞争格局的到来,同时期盼已久的3G时代也正式步入网络铺设和业务推广的实质性进展
学位
面向未来移动通信网络十年千倍的容量增长需求,第五代移动蜂窝网络(the5th generation of mobile cellular network,5G)将采用超密集蜂窝网络(ultra dense cellular network,UDN
本文针对网络接入难以控制的问题,提出了利用802.1x身份认证和安全检查,结合证书服务,分两个阶段对接入用户或设备进行身份认证和安全检查,保证只有合法用户满足安全要求后才能接
学位
关系数据库管理技术作为当今IT领域最成功的软件技术之一,已经成为了世界范围内几乎所有的商业、政务、金融和科技活动的基础。然而,随着信息技术的不断发展,计算机和互联网
CAD矿图是煤矿企业生产建设中一种非常重要的信息资源,随着Internet的迅猛发展,促进了其在网络上的应用。传统的CAD图形文件体积较大、依赖于特定的绘图平台,并且不同绘图平
传统蜂窝无线网络技术和无线局域网络技术都分别建立在事先部署基站和访问点的基础之上。无线自组织网络技术突破这种需要事先部署基础设施的要求,让网络中节点能够自主组网,
近年来,面向服务的软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统开发中的关键技术之一。人们逐渐认识到面向服务的软件体系结构在软件开发中的重要地位,好的软
随着我国信息化程度的提升,社会各行各业对视频监控系统的品质提出了更高要求,传统的安防监控系统面临着监控范围进一步扩大、前端设备种类繁多以及监控远程化等诸多问题,网络视
随着数字化医学设备的发展以及其在辅助诊断中的大规模应用,医疗机构每天都会产生大量的医学影像数据。由于医学影像数据存储在不同的地区,如何使异地医院的影像信息被本地医
随着我国科技水平的发展,电脑普及率迅速提高,办公自动化越来越深入到社会的每一种行业。对于从事人事管理工作的人事部门而言,信息量大是其特有的特点,这些人的信息每年都会