【摘 要】
:
查询分面是用于描述查询某一方面内容的一组并列的词或词组.现有的查询分面挖掘方法主要通过模式挖掘搜索结果中包含的高频列表,并利用无监督或有监督的方法对高频列表进行聚
【机 构】
:
中国人民大学信息学院,中国人民大学大数据管理与分析方法研究北京市重点实验室,中国艺术科技研究所
【基金项目】
:
国家自然科学基金(61502501), 国家“九七三”重点基础研究发展规划项目基金(2014CB340403)资助
论文部分内容阅读
查询分面是用于描述查询某一方面内容的一组并列的词或词组.现有的查询分面挖掘方法主要通过模式挖掘搜索结果中包含的高频列表,并利用无监督或有监督的方法对高频列表进行聚类,最终得到查询分面.因为通常采用的搜索结果的数目有限,这种方法挖掘出的查询分面及其包含的分面项的覆盖率不高.针对这一问题,该文提出了一种基于从大规模网页中构建的词项图的查询分面挖掘方法.首先基于大规模网页数据集构建词项图,图中的节点代表词项,边代表两个词项的相似性.针对每个查询,从搜索结果中挖掘出初始分面,然后基于词项图对这些初始查询分面进行扩
其他文献
通过对微分中值定理及其推广形式的研究,给出了一个柯西中值定理推广形式的反问题定理,并加以证明。
根据芳烃类与稠环共轭双键化合物有紫外吸收这一特点,提出以相对于苯乙烯含量为水中油类含量的示值,表示油类总量。此法简便、易行,且结果具有相对稳定性和可对比性。
本文介绍了防紫外线纤维的制造及性能,以及防紫外线纤维与纺织品的应用,分析了防紫外线纺织品巨大的市场潜力。
安全多方计算作为网络空间安全的关键技术,是密码学的一个重要研究方向,是近年来国际密码学界研究的热点.科学计算是安全多方计算的一个重要分支.集合论是现代数学最重要的基
情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难
IAA、ABA为植物生长激素,其含量的多少与果树生长、保花及保果有十分重要的意义,本文介绍了HPLC测定IAA及ABA的方法。
厦门地表水主要有从九龙江取水的北溪引水渠和坂头水库等,系厦门饮用水源。为保证自来水水质,自1989年至1994年开展厦门地表水水质调查,无论定期取样或临时抽样,早期均发现有
形状识别是计算机识别领域中的基本问题,可以广泛地应用于对象识别、图像检索、图像配准、目标追踪等各个领域.现在的形状识别方法主要利用形状轮廓上采样点的相关性形成特征描述子,在实际应用中由于缩放、旋转、仿射、射影等变换,无法获取采样点之间的对应关系,形状匹配时间长,识别率低.为了克服基本的特征描述子的局限性,该文提出了一种基于曲率分级的形状编码方法.首先,将射影不变量引入到形状的基本表示中,以保证形状
本文采用王水溶样,酸化水稀释,ICP-AES内标法快速测定不锈钢中Cr、Ni、Cu、Mn的含量。研究了溶液的酸度、基体浓度以及内标线选择,确定了试样分析的最佳工作条件。方法回收率
随着人们对隐私保护问题的关注,无线网络环境下身份认证的匿名问题越来越引起人们的重视.目前大部分匿名身份认证方案都是基于非共享密钥,此类方案计算量大导致资源消耗严重,