博文标签验证和补充方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:bingke111888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客是Web2.0的一个典型应用,随着博客的快速发展,博文数量呈指数级增长,博客搜索引擎可解决在海量博文中找到人们感兴趣信息的问题。为了提高搜索结果的可浏览性,一些博客搜索引擎集成了聚类技术。博文标签是由博主添加的,用来表示博文主题信息的关键词,因此将博文标签用于博文聚类应该是一个很好的选择。但是由于博主个人原因,可能会出现标签和博文主题信息不一致或者不能完整表达博文主题信息的现象,因此,不能直接将标签用于博文聚类。针对上述背景,本文提出一种利用博文主题信息进行博文标签验证和补充的方法。本文选取新浪博文作为研究对象,在分析新浪博文属性建立博文模型的基础上,给出博文标签验证和补充方法的流程和框架,描述博文标签验证和补充过程中的关键算法,包括:带本体的特征选择算法;结合相似度的BP网络分类算法以及博文标签验证和补充算法,并介绍根据维基百科分类体系构建本体的方法。其中带本体的特征选择算法以更好的选择特征表示用于BP网络训练的博文为目的,首先使用DF方法初步降维,然后利用CHI方法计算特征项的评估函数值,并根据该特征项是否在对应的类别本体中出现调整其评估函数值;结合相似度的BP网络分类算法利用大部分博文标签提供博文类别信息的优势,只有在标签提供的类别信息不准确或者没有提供类别信息的情况下才使用BP网络对博文分类,从而降低直接使用BP网络分类的时间消耗;博文标签验证和补充算法依据博文所属类别的本体进行,首先分别获得博文和博文标签在本体中的代表节点,其次计算博文节点和标签节点之间的相似度实现博文标签验证。博文标签的补充则是通过选择博文节点集中没有包含在标签节点及其子节点中并且和这些节点具有一定差异度的节点补充到博文标签中实现。
其他文献
随着Web服务及BPEL的深入发展,人员参与业务流程的问题已逐步引起了人们的关注。同时随着WS-HumanTask及BPEL4People规范的发布及标准化,越来越多的传统BPEL执行引擎开始支持
Deep Web环境下存在大量可访问的Web数据库,由于Web数据库的异构性和自主性,对从各个Web数据库中抽取出的结果进行集成是一项很有挑战性的工作。这些异构的Web数据库之间存在
随着无线通讯技术和全球定位技术的快速发展,基于位置信息的服务(Location Based Service, LBS)受到广泛关注。它在民用和军用方面等诸多领域展现了广泛的应用前景。而支持LB
相交图是图中非常重要的有着广泛应用的图,相交图的应用背景涉及生物、矩阵分析、统计学、任务分配等多个领域,而正是由于其具有广泛应用背景使得它在最近二三十年间得到了迅速
一个通用且高效的优化设计计算平台能有效地缩短飞行器设计周期、降低成本。本文描述了一个基于多学科设计优化(Multidisciplinary design optimization)理念的分布式并行计
近年来,随着无线网络通信技术、全球定位技术(GPS)以及地理信息系统的发展和应用,大量具有定位功能的便携设备(如移动电话、车载GPS等)得以普及,使得跟踪并记录移动对象的位
随着互联网的飞速发展,人们对科技文献的获取方式发生了根本性改变。目前通过网络获取、阅读文献已经成为主流,为了推动科研成果的传播和利用,开放存取(Open Access)在这一背
说话人识别技术对智能通信和信息处理具有重要的推进作用。同时,语音数据具有高维时间序列的典型特征,是信号处理和模式识别领域各种算法验证的珍贵数据资源。因此,这个领域
在近二十年中自动人脸识别引起了人们的广泛关注,人们迫切希望计算机能拥有和人一样的强大的依据人脸来识别人身份的能力从而使世界变的更加智能。但是,到目前为止,自动人脸
随着信息技术的快速发展,互联网的应用已深入到社会各个行业,人们在感受互联网所带来众多优势的同时,也越来越重视网络安全问题。僵尸网络(Botnet)已经成为现代社会中最严重