基于Word2Vec的在线商品特征提取与文本分类研究

来源 :温州大学 | 被引量 : 1次 | 上传用户:dark_zj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,信息过量增加了互联网用户对资讯识别的难度,传播的内容变得更加碎片化。文本分类技术通过自动识别特征信息,在庞大的文本数据中快速提取文档的核心内容,提高信息的检索效率。作为有效处理非结构化数据的工具,文本分类在数据挖掘领域逐渐成为研究热点。面向电子商务领域的文本数据更多呈现的是短文本形式,如商品标题、商品评论等。针对在线商品的管理首先依赖于商品的类目属性,在产品上架过程中由于用户的领域知识差异,会造成商品类目错置的问题,使得网络零售市场混乱,从而损害商家利益。为了维持网络销售市场秩序,提高市场管理效率,本文提出了一种基于Word2Vec文本表达的短文本分类新途径。现实生活中常存在类别不平衡的文本语料,本文通过skip-gram模型对在线商品标题文本训练得到词向量表示,构建特征间语义联系。针对传统特征选择方法在不平衡样本分类上的不足,综合考虑类别的分布因素以及特征在偏斜类别上的分布因素,对信息增益算法提出改进。在新浪新闻语料集上得到有效性验证后,将改进的算法应用在商品标题语料中,实现网络销售市场的商品自动分类。在获取类目主题时,引入了基于TextRank的关键词提取算法,通过在线商品标题文本的词语共现情况构建图模型。由于传统TextRank未考虑节点自身的重要程度,提出了改进的TextRank方法(S-TextRank)。引入显性比较优势对节点的自身重要度进行衡量,融合Word2Vec词向量聚类结果得到节点的概率转移矩阵,通过迭代计算得到文本的关键词权重,并应用于在线商品的分类学习中。实验表明,改进的S-TextRank方法在分类性能上有较好的提升。
其他文献
本文以非线性建筑的低技建造方法为研究对象,结合简单性原则中的局部模型简化法对相应的建筑案例进行剖析,进而提出规则化逻辑和形体、低维化构件体量、连续化材料变形、有限
目的探讨富露施治疗急性支气管炎的效果。方法选择确诊的200例急性支气管炎,随机等比分成治疗组和对照组。均在控制感染的基础上,治疗组口服富露施,对照组口服必嗽平,均不用其它
社会保障是国家维护民众生活和安定发展的一个重要命题。以宋朝士大夫为代表的社会保障思想是中国社会保障建设理念的重要组成部分。有宋一代的特殊历史国情使其士大夫阶层拥有较为宽松的为政环境,形成了士大夫与皇帝共治天下的政治新格局。两宋士大夫们了解民间疾苦,投身于社会保障建设,在救弊图治、兴国安邦的理念与实践中,就灾害救济、贫困救济、医疗保障等基础保障方面提出了自己的理论。并且不乏付诸实践者,孜孜以求,报效
现阶段,农村经济形势极为复杂,发展不平衡,分化极为严重,农村财务透明度不高,财务问题反响强烈,部分农村在推动城镇化过程中问题突出,对农村经济发展造成很大阻碍,因此,必须
道路排水既要满足海绵城市建设大背景下的各项约束性指标要求,同时也要保证路面排水安全。以上海市某道路为研究对象,分析了排水设计对径流系数的校核,通过海绵城市工程化措
基地简介山海天阳光海岸公共服务设施位于山东省日照市,山东最南部的海滨城市,位于青岛与连云港之间。天然的优良沙滩、清凉的海洋性气候和便捷的地理位置使日照成为附近省市
1883年兰登堡(Landenberg)首先合成了所谓具有三元环的伯胺,但在同年葛勃里耳(Gabriel)从β-溴化乙基胺与氧化银共蒸馏所得乙烯亚胺,误以为乙烯胺CH_2=CHNH_2。直到1900年马
运用文献资料法和逻辑分析法等研究方法,结合体育文化学对文化自信视域下武术教育传承的思路展开分析。研究认为:武术教育传承为增强文化自信提供契合点,也是提升文化软实力
法国在水价中合理引入了水成本费和税费的双费构成制度,并采用边际成本定价法,将水价与水资源开发总目标相联系,以供水量增加及提高水质标准的边际成本作为确定水价的依据,是
二战胜利即将到来之际,反法西斯同盟几个主要国家的领袖开始谋划重建战后世界秩序和集体安全的问题.作为同盟的主要国家之一,中国方面也积极参与了相关工作,建言献策,参与设