基于电子商务领域分类树和众包的商品语义标注方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:qq88493940
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电商行业和互联网技术如火如茶的发展,一种将视频与电子商务相结合的新型商业模式T20应运而生。视频中一闪而过的商品画面可以通过图像匹配算法与商品资源库中的商品图片准确匹配,从而向用户提供商品的购买链接。如果在构建商品资源库的时候为商品资源添加更多的语义标签,那么能够在节约用户浏览商品详情时间的同时,根据商品的不同标签信息为用户进行商品推荐。本文主要对商品文本资源进行语义标注研究。现有对文本资源语义标注的研究中,标注资源(如文档、网页)多为结构文本或者长文本,依赖领域本体或知识库等知识组织体系。然而,在电子商务领域,缺乏共享通用的领域本体,商品描述文本具有"碎片化"、缺乏上下文语义信息等特点。针对这种情况,本文以电子商务领域分类树为知识组织体系,提出基于词向量的商品语义标注方法,由此为商品添加类别、属性等语义标签。本文的主要研究内容包括:首先,利用在线商品资源库的商品目录以及大规模商品资源的属性描述,抽取商品概念、概念关系以及概念属性,构建电子商务领域的商品分类树;其次,通过训练电子商务领域的Word2vec词向量提取商品描述文本的语义特征;然后,将电子商务领域分类树的商品概念视为已知的分类标签集合,训练基于词向量的商品分类器,将待标注的商品视为待分类的数据,通过分类器将商品映射到分类树中的商品概念,标注商品的类别;根据商品概念映射的结果,在分类树上获取商品的概念属性,从词形和语义两方面衡量商品描述文本中属性-属性值对的属性与概念属性之间的相似度,标注商品的属性值;最后,通过融合众包和主动学习迭代训练商品分类器,提高商品分类的准确率,改进商品语义标注的质量。本文的主要贡献如下:1.提出了一种基于电子商务领域分类树和词向量的商品语义标注方法,以电子商务领域分类树为知识组织体系,能够同领域本体一样较好地表达出领域知识的层次关系,并且相较于本体构建更为简单,更容易理解;利用Word2vec词向量生成商品描述的语义特征,使得商品描述具有明确的语义信息。通过两者的结合使得在构建商品资源库时能够为商品资源添加类别、属性、属性值等语义标签。本文的方法适用于不同商品资源库的构建,解决了商品来源的异构性。2.提出了一种融合众包和主动学习的商品语义标注质量改进方法,结合众包标注准确率高和机器分类速度快的优势,通过主动学习的采样策略,选取机器分类结果中可信度低的结果交于众包进行标注,能够利用少量已知分类标签的商品数据和大量未知分类标签的商品数据,通过迭代训练出一个精度较高的商品分类器,能够提升分类质量的同时节约标注成本。
其他文献
北太平洋海温第二主导模态是一个呈现东北一西南“+-”偶极子型变化的海温模态。被定义为维多利亚模态(VM)。本文利用1979-2014年的逐月资料,通过偏相矣分析及回最分析等气象统计
苏式家具是中国传统文化艺术的载体和文化符号,本文从显性符号的表达入手,分析其材料运用、造型语意、文化意象等方面的内容。在梳理家具文化研究现实的基础上,尝试总结出实
课程资源、课程评价、课程内容、课程结构和课程目标的开发是新课程改革的几个方面。目前人们越来越重视乡土资源这一开发潜力较强的课程资源。目前一线化学老师亟需完成的问
如果白天的工作是一场战争,入夜的床铺则是一段飨宴;如果每日的辛勤工作是为了解决温饱,那么每晚的歇息则是为了平抚疲惫的灵魂。正如此,人们从古至今总喜欢在床上寻求原始的慰藉
运用微分方程理论,讨论了具有时滞的不确定性系统的时滞相关稳定条件,给出了系统渐近稳定的时滞界,并给出了系统衰减速率的估值,文末给出的数值例子表明,本文提出的方法所得结果优
江苏省徐州地税局自2010年末启动税源专业化管理改革后,突破传统普管制、管户制的税务模式,积极进行风险管理探索和实践,通过对税收风险的全方位识别和差别化应对,增强了管理的针
报纸
我国的传统文化是一个"二元结构"体系.具体表现为:皇权至上,法自君出;礼义为先,德主刑辅;等级特权,双重标准;义务本位,身份依附.这种"二元结构"的文化特质,在一定程度上影响
使用本文作者提出的生物分子绝对进化速率计算公式和COXⅡ蛋白质分子,计算得到了针鼹等单孔类哺乳动物于2.32亿年前分异出,这一结果与文献依据化石记录得出的结果相符;计算还
本文用南桐煤田煤样研究了煤的导电性,并初步探讨了煤的导电性与煤大分子结构的关系。本文的研究结果对于煤的导电特性的研究及煤的气化均有一定的参考价值。