【摘 要】
:
本文主要是对事务类搜索意图分类模型进行了研究。所谓用户搜索意图,可以理解为用户通过搜索希望获取到的信息或资源,可以量化为用户希望得到的检索结果集。在搜索意图分类领
论文部分内容阅读
本文主要是对事务类搜索意图分类模型进行了研究。所谓用户搜索意图,可以理解为用户通过搜索希望获取到的信息或资源,可以量化为用户希望得到的检索结果集。在搜索意图分类领域,目前还没有一个完全统一标准的分类体系。本文在Broder提出的意图分类体系基础上,参考了Rose和Levinson的意图分类体系,对事务类搜索意图进行了细分。将事务类意图细分为五个子类别,分别为下载、娱乐、交互、获取以及购物,并对这五个子类又细分为多个具体的用户搜索意图类别。本文重点研究内容是搜索意图分类特征获取以及模型构建。根据分类模型构建特征获取来源的不同,分为事先模型和事后模型。事先模型主要是从用户搜索Query本身获取特征进行建模,这些特征主要包括词汇(Unigram)特征、多元特征(Bigram和Trigram特征)、命名实体特征(NER)信息;事后模型是从搜索Query扩展资源来获取相关特征。扩展资源主要包括搜索引擎Web查询日志和搜索引擎抓取结果。其中,搜索引擎Web日志中可以提取URL地址片段、相关词汇特征和用户点击行为等;从搜索引擎抓取结果中可以获取特征主要包括页面标题(Title)以及页面文档中链接到其他页面的词汇或文本片段(Snippets)等。本文对上述所有特征及其组合分别进行了实验,实验结果表明,基于Query内容本身获取的特征对绝大部分搜索意图分类都是有效的;同时,从搜索Query扩展资源中获取的丰富特征对事务类搜索意图分类也起到了很大帮助和积极作用,并且它们组合特征的分类效果更加显著。另外,本文也对常用文本分类器作了相关介绍,并且选取最常用的三个分类器进行了实验效果对比。这三个分类器分别是决策树、K-近邻和支持向量机。结合选取的事务类搜索意图组合特征和意图类别分别进行实验,通过实验结果对比,发现各个分类器分类效果不尽相同,而支持向量机分类总体效果最佳。
其他文献
本文研究关系绩效对离职倾向的影响,引入团队信任作为中介变量,收集不同类型企业的调研数据,运用结构方程模型对数据进行实证分析,验证了本文提出的相关假设。研究结果表明:
<正>神池盖因县城西"有水一泓,出无源,去无迹,旱不涸,雨不盈,鱼藻胥不生,若有神焉"而得名。美丽的自然景观也赋予了神池美丽的神话传说。神池县域不大,终年风众雨寡,温少寒多
<正>上党堆锦艺术是山西古上党地区所特有的民间传统手工艺术品,是工艺美术行业中唯一保留的一个地域性传统手工艺术品种,也是世界丝绸王国——中国创造的、最具民族特色的手
纵观我国几千年的文化发展,古诗词是展现社会形态的一种重要表现形式,也是人们各种思想的一种汇聚,无论在哪个时代,无论是哪一个诗派,都包含一个永恒的主题,即爱国主义。古诗
Lack of drug education and an ultra-competitive society have led Chinese youths to abuse prescription amphetamines,sold on the black market as "smart drugs" tha
本文结合学习和执行石油天然气行业《石油建设工程质量检验评定标准》即SY4024-93 ̄SY4035-93系列标准的实践,阐述对该标准中评定单元划分、第三方监督、保证资料和评定计分规则等条款的理解和体会
由于技术创新能力与发达国家有较大差距,我国实行了保护性的专利审查机制,使国内企业能够更容易并更快速地获取专利权。国外企业在中国要想获取专利权往往需要等待更长时间,
<正>肥胖已成为现今社会严重危害人类健康的疾病,传统的饮食控制、内科保守治疗等方法很难将其根治。减重手术是目前被证实唯一能够获得长期稳定减重疗效的方法,而且能够使多
电子驻车制动系统(EPB)是指将行车过程中的临时性制动和停车后的长时性制动功能整合在一起,并且由电子控制方式实现停车制动的技术。从技术升级上看,电子驻车制动技术比长期使用
R-藻红蛋白的提取是其分离纯化的重要前提.因此,选择适合的提取方法是较为关键的步骤.以坛紫菜藻为材料,分别采用反复冻融法、液氮研磨法、细胞溶胀法、低浓度CaC l2提取法、