论文部分内容阅读
随着“新零售”时代的到来,线上的购买行为变得愈发普遍,对人们日常生活的影响越来越大。购物网站上海量的商品信息和销售数据往往蕴涵着巨大的价值,有很大的研究意义。本文将在线商品的文本描述作为出发点,同时考虑文本的时态特性,定义了商品特征的时态文本表示方法。文中运用文本分析技术从时态文本中提取商品的一般特征,与在线商品的销售数据相结合,计算出特征词的流行权重,从而挖掘目标品类商品的流行特征。挖掘过程中,为了对商品的特征候选集进行剪枝,减少数据冗余,本文还提出了一种新的方法来计算中文词语的语义相似度。该方法利用HowNet本体知识库,创新性地将信息内容(Information Content,IC)作为相似度计算的重要指标,计算语义相似度,在提取目标品类商品的流行特征过程中进行语义去重,大大减少了计算量。我们提出了在线商品的流行特征时态文本模型与算法,为验证算法的有效性,采用从电商平台采集的大量真实的商品交易数据及文本描述作为实验数据集,将提取的商品特征与当时的搜索热度做对比,结果证明本文方法准确率较高,具有一定的实用性。