微博搜索的关键技术研究

被引量 : 0次 | 上传用户:iamasg_wql
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博迅速成为一种重要的实时信息源,其搜索存在两个重要问题:查询词与微博消息的相关性计算、搜索结果整理。相关性计算从内容、语义上衡量消息与查询词之间的相似程度;搜索结果整理以简明有序的方式组织消息,克服冗余性和不规范书写,主要整理方式包括分类、摘要等。本文以推特为例,探索了微博搜索研究任务中几个重要问题:相关性计算、查询结果分类、摘要和对比话题摘要。针对相关性计算问题,提出两种消息排序模型,分别基于学习排序和递归神经网络语言模型。与目前微博搜索服务中的相关性排序算法比较,前者显著提高了消息序列的相关性,后者缩短消息在计算语义相关度时的鸿沟,提高查询结果的覆盖率。基于学习排序的模型系统研究了文本相关性特征、微博书写特征和微博的作者权威度特征在微博相关性计算中的作用。基于递归神经网络语言模型的排序模型将语义相似度引入消息的相关性计算中,在词向量粒度上计算消息之间的词法语义相似度。针对搜索结果分类问题,提出基于消息关联关系的协同分类模型,为微博定义了一个话题分类体系。与基于特征的基准模型相比,该模型的准确率和F值分别提高了5.38%和4.74%。该模型将消息之间的两种共享话题关系应用到三种基于图的协同分类模型中,考虑本地特征和来自关联消息的类别分布,同时为一批微博消息分类,降低数据稀疏的影响,极大地提高了分类器的精确率和召回率,其中采用共享话题标签(#hashtag)关系的迭代分类算法结果最优。针对搜索结果摘要问题,提出基于时间轴的关联交互自增强式摘要模型。与基于图的基准模型比较,该模型的ROUGE-1平均提高了14%。给定查询词的搜索结果,该模型按照时间顺序将其划分成若干子话题,同时考虑文本内容、作者社会影响力和文本质量计算消息的重要度,根据重要度和多样性对微博消息进行排序和抽取以生成摘要。实验表明,作者的社会影响力和文本质量有效地改进了文本重要度的度量。针对对比话题摘要问题,提出基于消息关联关系的最优化对比话题摘要模型。与基于内容相似度计算的基准模型比较,该模型的对比属性覆盖率和比较消息对准确率分别提高了14.7%和11.6%。该模型充分利用消息之间的相似度关系和三种共享话题关系,采用网页排序算法和SimRank方法,最大化消息对的内部对比性和话题代表性,概括对比查询词搜索结果中的共同点和不同点生成摘要。
其他文献
<正>位梦华的《旅鼠之谜》用记叙的框架、对话的方式来介绍科学知识,创新写法不拘一格,之中巧妙处理的详略安排,更能让读者触悟到作者善于谋篇布局的独运匠心。记叙的详略如
介绍了城镇压缩天然气(CNG)的生产、运输和减压等技术,结合实践,分析了城镇CNG供气技术的适用性。
针灸迎随补泻法是补泻法的总则,主要包括时机迎随补泻、母子迎随补泻、针芒迎随补泻及生成迎随补泻。其理论渊源于《黄帝内经》,较具体的提出此法则始见于《难经》,此后历代医家
在2008年北京奥运会胜利举办,全球经济一体化和世界多元化以及中国经济持续增长的多种因素推动下,中国旅游业获得了巨大的发展,其中海南国际旅游岛的建成更是促进了海南旅游
目的:观察局部封闭加牵引治疗腰椎间盘突出术后难治性下腰痛(LSP)的疗效。方法:将LSP患者90例随机分为对照组和观察组,对照组45例采用基础治疗,观察组45例采用基础治疗加局部
对燃气储罐的置换方法进行了分析比较 ,提出了置换过程的具体要求
目前,人类社会进入到21世纪已经有十几年的时间了。在这十几年的时间里,信息量所发生的改变比以往任何历史时期都要大。在信息爆炸的历史时期,对有价值的信息进行有效管理是摆在
观察肝硬化合并便秘患者服用化浊解毒清肠方后对肠道菌群、血浆内毒素、血浆二胺氧化酶的影响和改善。方法:选择肝硬化患者80例,对照组40例给予对症治疗基础上给予双歧杆菌三
降水量等值线是反映水资源变化规律的重要方式,也是推求无资料地区水文要素的重要参考依据。然而,在地形复杂、气候多样的地区,采用常规方法绘制降水量等值线存在一定困难。
无人驾驶车辆是一种轮式移动机器人,其技术涉及认知科学、人工智能、机器人技术与车辆工程等交叉学科,是验证各种新兴技术的最佳实验平台,也是当今前沿科技的重要发展方向。