基于Query分析的中心词与需求词搭配关系的自动挖掘

来源 :东北大学 | 被引量 : 0次 | 上传用户:fdgerg454h4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日志数据挖掘技术是一种广泛运用于互联网的技术。其目的是从互联网海量日志数据中挖掘有意义、有价值的数据和信息,从而指导搜索引擎更好的满足人们的查询需求。当前web搜索引擎对以自然语言形式提出的查询语句query分析重视不够,主要体现在对语句分词后不加区分地将所有分词结果作为检索单位,送入检索系统。由于检索前端语言分析对用户信息需求把握不准,后台各种复杂处理流程就成了无源之水,无本之木。本论文将着眼于对用户query这一表述用户特定信息需求的独特语言现象进行分析,为检索系统提供一个良好的前端处理。如:用户输入“手机”就有可能隐含着有对“价格”的需求。其中“手机”就是用户查询query中的中心词,而“价格”可以作为用户查询的中心词对应的需求词。分析query中的中心词和表征用户需求的词语之间的搭配关系,可以建立词与词之间的关系网络,能用于query意图判断,query扩展等方面,能更好的指导索引来满足用户搜索的需求。本文利用web数据挖掘技术提出了一种从大规模日志中挖掘query中的中心词与其对应的需求词的搭配关系的方法。首先利用制定的规则模板按不同中心词类别(如商品类,软件类),提取出不同类别对应的整体候选需求词,然后按照词聚类方法得到每个中心词与其对应的需求词列表,最后按照统计及搭配的方法对需求词进行过滤,最终得到中心词与需求词的对应关系。系统结果显示中心词与需求词搭配关系的正确率达到了90%左右,此方法具有实用的价值。
其他文献
在网络可靠性分析中,使用二元决策图(binary decision diagram, BDD)技术能够在很大程度上提高性能和效率。基于BDD的网络可靠性分析方法主要包含寻找一种较好的网络变量(本
随着视频会议技术的日趋成熟及PDA移动设备的普及和性能的提升,嵌入式流媒体通信技术成为研究的热点。同时,伴随着卫星通信技术的发展以及卫星信号的全球覆盖,为满足应对天灾
无线传感器网络是一门新兴技术,是传感器技术、计算机网络技术、微机电系统(MEMS)发展的产物。作为一种新型的信息采集和处理技术,日益受到国内外的高度重视,主要应用在环境
数据库应用中所需要的往往不只是快照信息,也包括历史信息,时态数据库的研究因此产生。然而,历时近三十年,时态数据库研究工作出现大量优秀的理论成果及一些原型系统,却没有
纹理编辑是近年来国内外一个比较活跃的研究领域,原因在于纹理编辑在计算机视觉、图像处理及计算机图形学等领域占有重要的地位和广阔的应用背景。比如在布料、软体家具包装
近年来无线Ad Hoc网络越来越受到许多公司和大学的关注,成为当前网络研究的热点之一。Ad Hoc网络具有无中心、自组织、多跳路由、节点移动等特点,这使得它拥有许多独特的优势
计算机网络和通信技术的发展不断改变着人们工作和生活的方式。自组织网络概念的提出使网络具备更加灵活、快速、可伸缩的组网能力。IPv6是NGI的核心协议,但现有基于IPv6的路
随着网络应用的扩展,网络安全受到的威胁日益严重,尤其是恶意代码的泛滥对网络和应用造成了很大的破坏。在恶意代码中,计算机蠕虫由于无需人的干预,能够自动传播,因此造成的
随着信息技术在社会中渗透的不断加深,信息安全已成为当今社会重要的研究课题之一,基于人体生物特征的身份鉴定技术越来显示其重要价值。虹膜由于具有唯一性、稳定性、识别率高
随着数字视频服务在图像精度与质量上的要求越来越高,能够适应更大屏幕、更高分辨率的超高清电视技术现已问世以满足这一需求。由于超高清图像中具有很多像素,利用原有的H.26