【摘 要】
:
基于知识理解的数据挖掘技术在电子商务中可以应用到商品分类和推荐方面。为了弥补传统的基于关键词分类的不足,帮助消费者有效、准确、快速地查询所需信息,系统通过使用Probase概念、实体、属性知识分层模型,把检索出来的具有相同关键词但在现实世界中不属于同一类别的商品区别开来。该系统还可以利用商品在数据库中所属类别与其他类别的关系权重,通过建立相应的关键词联想算法更加准确地定位商品的类别,并通过其余关键
【机 构】
:
School of Computer Science, Harbin Institute of Technology, Harbin 150000
论文部分内容阅读
基于知识理解的数据挖掘技术在电子商务中可以应用到商品分类和推荐方面。为了弥补传统的基于关键词分类的不足,帮助消费者有效、准确、快速地查询所需信息,系统通过使用Probase概念、实体、属性知识分层模型,把检索出来的具有相同关键词但在现实世界中不属于同一类别的商品区别开来。该系统还可以利用商品在数据库中所属类别与其他类别的关系权重,通过建立相应的关键词联想算法更加准确地定位商品的类别,并通过其余关键词的关联度排序,从而为消费者寻找最符合要求的商品集合。
其他文献
在MapReduce与数据库的混合架构中,数据划分是影响查询性能的重要因素。对于开销最大的连接和聚集操作,采用混合MapReduce的方式实现,需要大规模数据的跨结点传输,网络传输和I/O开销巨大。为了减少传输的数据量,并提高连接操作的查询效率,提出了划分建议器模型。实现了MapReduce和数据库混合架构上的划分建议器,并计算划分代价,生成最优的数据划分方案,提高了系统效率。为了减少查询时间,依
为了解决空洞恢复路由算法在能耗、路由开销及可扩展性等方面的问题,提出了使用移动代理(MA)进行网间处理来避免“路由空洞”的算法(HAMA).HAMA将网络中的节点分为“空洞相关节点”或“空洞无关节点”,通过采用MA方式,对“空洞相关节点”进行路由处理,为其找到一个最优下一跳节点,最终成功建立到Sink节点的路由,从而达到避免“路由空洞”的目的.HAMA使节点提前意识到“路由空洞”的存在,尽可能绕开
为了使列存储OLAP操作中I/O和CPU开销较大的扫描、连接、聚集操作实现有效的共享和复用,提出了一个多查询优化技术。根据列存储以及OLAP操作的特点,提出了一系列转换规则,为OLAP查询请求产生的一组相关查询语句生成一个单一全局查询计划。为了达到共享复用的目的,在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点。同时,借用MuGA算法,通过分组结点、合并结点、连接结点实现维表及事实表元组
针对闪存缓冲区置换算法的性能验证基本采用仿真模拟的现状,提出了一种基于PostgreSQL的有说服力的性能验证方法,重点讨论了在PostgreSQL上扩展闪存缓冲区置换算法的方法和实现技术,并以CFLRU和CCFLRU算法为例,给出了具体的扩展过程。然后以一块固态硬盘作为数据存储设备进行性能测试,测试结果证明了基于PostgreSQL的扩展方法在缓冲区置换算法性能验证上的有效性。
微博不同于传统的社会网络和电子商务网站,存在用户活跃程度低,微博数据稀疏和用户兴趣动态变化等特点,将传统推荐算法应用于微博推荐时,效果并不理想。提出了一种基于贝叶斯个性化排序的微博推荐算法,对用户进行个性化微博推荐。该基于贝叶斯个性化排序的微博推荐算法,以微博对的形式提取微博系统中的隐式信息,对这些微博对进行学习,从而得到用户对不同微博的兴趣值。根据每条微博发出的时间,估计每条微博对的可信度。发出
DBSCAN算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势
针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化的半监督朴素贝叶斯分类(PSNB)算法。通过实验可以看出,PSNB算法不仅可以高效地处理海量的文本数据,还可以有效地利用无标记的文本数据来提高分类器准确率。
为了解决缩微交通环境下的车道标识线检测问题,提出了一种数学形态学与概率霍夫变换相结合的车道标识线检测方法。首先运用灰值腐蚀膨胀对道路图像进行滤光处理,去除光照影响,然后利用自适应阈值二值化图像,最后利用概率霍夫变换寻找车道标识线。实验结果表明,在缩微交通环境下该方法能够准确地检测出车道标识线,具有很强的鲁棒性。
为了解决基于Rao-Blackweilized粒子滤波器的同时定位与地图创建算法需要大量的采样粒子,而且频繁重采样可能导致粒子耗尽的问题,提出了融合遗传优化的粒子滤波器算法。设计了一种变异的遗传算法来兼顾粒子的权值和粒子集的多样性,取代原有的重采样步骤。在计算采样的提议分布时考虑了里程计信息和距离传感器信息,并且通过遗传算法来维持粒子集的多样性。实验结果表明,融合遗传优化的粒子滤波器算法在估计精度
可扩展标记语言数据的关键词搜索面临着搜索结果数量庞大,同质化严重和不易区分等问题,针对这些问题,提出了一种新的基于多样化的方法。首先从查询结果抽取原型以标识查询结果语义,然后根据结果原型的特点,定义了原型的兴趣度和原型之间的距离,在此基础上,实现了原型的多样化。进一步提出了一种XML关键词搜索结果组织方法,即按照原型聚集查询结果。这种组织方式能够解决上述问题。最后通过实验证明了所提方法的有效性。