一种词聚类LDA的商品特征提取算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:jiangqiqi77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类度量算法,在此基础上构建了一种基于词聚类先验知识的潜在狄利克雷分配的商品主题特征提取模型.首先对词项按词义相似度、上下文相关度进行聚类;然后在商品主题特征抽取中引入词聚类因素作为权重影响因子,使得同一个聚类簇中的词项属于同一主题的概率增加.相关实验结果表明,本文提出的词聚类和特征提取算法具有较好的效果.
其他文献
不断健全和完善工作机制,进一步提高履职服务保障水平,进一步规范议案建议处理工作。进一步丰富闭会期间活动形式,全方位、多渠道支持保障人大代表履行代表职责、充分发挥作用…
以丹参(Salvia miltiorrhiza Bunge)为材料,采用盆栽实验,研究丹参叶片在不同土壤水分(田间持水量的35%、55%、75%)条件下总酚酸类成分积累及相关酶活性的变化规律。结果表明
为了对当下网络谣言的现状、谣言传播心理以及影响网络谣言传播与辟谣的因素进行全景式了解,笔者利用网络问卷调查法,针对全国除港澳台以外的各个省市自治区的网民进行调查,共收