【摘 要】
:
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审核的成本,只对产出商品词的准确率进行评价。利用该方法在手机、面霜和香水三类商品的搜索日志上进行了实验,最高准确率达到92.58%。
【机 构】
:
哈尔滨工业大学计算机科学与技术学院
【基金项目】
:
2011中国计算机大会论文.国家自然科学基金项目(60975077,60736044).
论文部分内容阅读
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审核的成本,只对产出商品词的准确率进行评价。利用该方法在手机、面霜和香水三类商品的搜索日志上进行了实验,最高准确率达到92.58%。
其他文献
在邮件挖掘研究中,发现邮件地址相应的深层关注对象人物实体是未来研究热点方向之一。在现实世界中人名是人的一种关键标识,而在互联网中别名常代替真实人名来标识人物实体,权威别名评估对身份辨识、核心人物查找等应用研究具有重要意义。基于邮件通联关系结构特征,针对一个邮箱用户所有可能的别名,提出基于使用广度与频度以及借鉴PageRank算法思想的基于通信对象信誉度的权威别名评估算法,最后实验验证了其合理性和有
1爱是浩瀚的大海品德是海水的深度 2人生如河欲求波澜壮阔必先淡泊如水 3为名累在于爱慕虚荣
音乐是一种声音的艺术,更是一门以"听"为本的艺术,这是由音乐的本质所决定的。而声乐课的主要特点就是从听觉世界来培养学生的感受能力、音乐鉴赏力和技艺精湛的歌唱能力。因此
为了实现生产资料相关数据的无线管理,提出了基于射频识别RFID(Radio Frequency Identification)技术的企业远程管理系统的设计方法。系统采用nRF24LE1芯片作为核心元件,构建有源RFID系统的硬件电路和软件流程,使标签和读写器配置简单,性能稳定,读写距离远,便于系统功能的扩展。在产品、原材料的生产和仓储管理中,可以实现信息的远程自动化监控。
据1987年Phys.Rev.报道,纳米硅薄膜(nc-Si:H)是从上世纪80年代末兴起的一种新型人工功能纳米半导体材料.中国科学(A辑)记载,沈文忠课题组早在1992年已正式研制出来,指出它是
针对CMOS二维风速风向传感器的工作原理,分析了传感器的控制电路及其特点,并根据该类传感器的特点,重点探讨了信号检测处理电路的形式和特点.拟采用恒温差或者温度平衡控制模
挪威有一位叫威廉姆斯的探险家,从20岁开始环球旅行。40年后,他几乎走遍了世界上所有著名的荒漠、丛林和深山峡谷。 1982年,在结束南非裂谷带的探险后,记者曾问他有何感想。他说,我始终有两大遗憾:一是为世人遗憾,地球上有那么多瑰丽的景色,世人竟不得一睹;二是为景色遗憾,它们那么壮观美丽,而不为世人所知。 1991年,他到新西兰南部的一个小岛,面积6.7平方公里,由于远离
"组合竞选"是一种新的村委会选举模式,它的制度设计为其功能的展现与发挥提供了很大的空间,从组合竞选产生缘由出发,分析它与其它村委会选举模式相比所具有的特点,探究它在减
针对最小远离距离MFD(Minimum Far Distance)算法对局部尖锐噪声易产生误匹配的问题,提出了一种改进的算法。新算法通过加入噪声阈值,对应点的灰度差值的相似阈值和单调递减累加阈值的方式,有效地去除了图像中的尖锐噪声,快速终止了非匹配点的计算,从而减少了总体的计算量。同时新算法采用了一种包含像素点差值的相关方法来解决同时出现多个匹配点的情况,从而显著抑制了模板的漂移问题。实验结果表明
根据OSEK/VDX规范,以及μC/OS-Ⅱ内核的特点,分析二者的差异,通过修改μC/OS-Ⅱ内核,设计出一种符合OSEK/VDX规范的车载嵌入式操作系统。并从任务管理与调度、资源管理、警报与计数器管理、事件管理和中断管理等多方面,详细地介绍了该系统的主要设计思想。