论文部分内容阅读
[摘 要]针对传统单向推荐系统难以适应工业类和服务类对象网上交易的不足,提出了基于供需双方画像的双向推荐系统解决方案。首先,在分析单向推荐系统基础上引出双向推荐设计思路。其次,全面阐述框架设计和流程设计,重点介绍了数据采集与预处理、三类画像标签体系和供需匹配和对接实现途径,并指明了双向推荐的积极意义。最后,探讨了需下一步继续研究的问题。
[关键词]用户画像;双向推荐;推荐系统;标签
中图分类号:H319 文献标识码:A 文章编号:1009-914X(2018)46-0382-01
1 供需双方画像双向推荐对推荐系统优化的意义
用户画像作为用户描述工具,在用户描述和建模上具有优势,但当前主流研究重点在需求方的画像建模方面,建立双方的画像进行双向推荐具有以下几方面的意义
(1)可大大增强供方参与主动性
传统推荐系统单方面把商品推荐给需方,高度的智能化虽然解放了供方,但同时也使得供方的参与度降低,不能及时根据需方的喜好来及时进一步挖掘潜在需求,通过双向推荐,系统把意向用户推荐给供方,如需方没有快速下單,供方可视情况积极主动的与需方进行对接,极有可能促成犹豫期需方的交易。
(2)适用于定制化产品的场景
通过供需双方的直接双向推荐,双方通过会话可针对定制化需求进行深入探讨,可大大增加促成交易的成功率,并且可以根据交易结果,总结提炼细化特征,逐步将定制化产品、技术、能力通用化,从而为基于内容的推荐和基于协同过滤的推荐提供更准确的依据,以便适应传统推荐算法的应用场景。
(3)双方多维画像可客观全面展示供需双方,规范交易市场
通过从消费/支付、信用、偏好、收/发货、态度、风险承受力等多维度客观全面的描述供需双方,使得双方可以从交易对象之外其他领域加深理解,综合评价,进而形成长期合作伙伴,特别适用于工业类产品和个性服务类交易领域。
2 画像概述
在各类个性化推荐系统中,用户画像必不可少。随着互联网的普及与应用,大众在网上的浏览、点击、留言、评论、收藏、打印、保存等碎片化的行为轨迹被整理搜集并存储起来,这些轨迹数据可在一定程度上反映网络用户的性格、偏好、习惯、态度等信息,而这些碎片化的、经过整理存储的数据,能被用来完整地重构消费者的需求,这些从全方位、立体化的记录消费者的数据,被称之为用户画像。将画像技术由传统的消费者扩展到商家,这里的用户画像是对网络上供需双方碎片化行为轨迹整理搜集后用来描述供需双方特点的数据的统称。
3 基于供需双方画像的双向推荐系统框架
3.1 单向推荐的一般思路
一般情况下,单向推荐系统需要经过用户建模、推荐对象建模、项目匹配和推荐输出四个阶段来实现个性化推荐。
用户建模阶段:根据用户网络上的各种行为,提炼特征值,确定权重,产生一个表示用户特有背景知识或兴趣需求的用户模型,该模型能够获取、表示、存储和修改用户兴趣偏好能进行推理。建模方法主要有遗传算法、基于机器学习的方法等。
3.2 双向推荐系统设计思路
在工业品和定制化服务类电子商务领域,由于技术复杂,需要供需双方就技术合作细节进行反复沟通,还存在着双向选择特点,更适合采用双向推荐形式,即建立面向供应方的个性化潜在用户推荐系统和面向需求方的个性化产品/服务/店铺/厂家推荐系统。
4 双向推荐系统框架设计
双向推荐系统从下到上依次分为采集层、预处理层、画像层和应用层。采集层主要用于采集网上供需双方和产品、技术、能力等对象的各类数据,按照采集的位置不同分为客户端采集、服务端采集和第三方采集,其中客户端采集通过在前台页面添加脚本或小程序方式获取行为和内容数据。
预处理层对采集来的各类数据一方面通过去重、补齐字段等方式清洗无效格式数据,另一方面通过规则检查清洗无效评论、恶意刷单等无效内容数据,清洗后的数据按照特定的规则进行标准化,便于后续的处理,标准化后的数据综合运用分类、聚类、本体等技术提取其中的特征值形成特征库。
5 双向推荐系统流程设计
系统用户包括需求方和供应方,以下分别从数据采集与预处理、画像建模、供需匹配和供需对接四个主要步骤进行详细设计。
5.1 数据采集与预处理
数据采集与处理是后续推荐工作的基础,为增强适应性和数据采集的广泛性,系统设计应支持用户(含需求方和供应方)提供数据和系统获取数据两种方式。
提供数据与显式获取用户数据方式类似,系统提供录入界面供用户主动填报个人基本信息、地理位置、年龄段、消费习惯、关注领域、兴趣爱好、主营业务、主打产品等显式信息,供应方用户对此积极性较高,但需求方,由于涉及用户隐私、影响用户使用等因素,积极性不高。
对此,需对需求方用户更多采用系统获取数据的方式进行采集,根据对网站控制权限的不同,系统获取数据有可分为客户端采集、服务端采集和第三方采集。由于采集对象格式技术各异,加之恶意差评、水军泛滥,采集来的数据无论是在格式上还是内容上都需经过预处理才可使用,本系统中设计经过三步完成数据预处理,首先度量数据间的相似度,对数据进行初步处理,其次对数据抽样,在不减少数据主要特征前提下,降低数据集的规模,最后通过降维方法缓解数据稀疏性,通过去噪减少异常数据对推荐结果的影响,保持一定的推荐准确度。
5.2 画像建模
用户画像建模中,数据特征的提取是画像的基础,系统根据这些数据特征来勾画供应方和需求方的画像,用标签来表示这些数据特征,标签本质上是一种资源分类方法,是以关键字的形式对自己喜欢的资源定义的一个或多个主观描述。标签的来源可以分为两类,一是用户自主给出的,国内外的Facebook、Twitter、Youtube、豆瓣、优酷等都支持用户添加标签,二是推荐系统根据采集的数据通过聚类、分类等技术,抽取其中数据特征,经过标准化后,形成系统生成标签。确定由标签表示数据特征后,就可以用标签按照特定的形式来表示用户画像了。
5.3 供需双方匹配与对接
推荐对象画像、需方画像、供方画像设计完毕后,需基于推荐算法进行供需双方的匹配,目前流行的推荐算法包括基于人口统计学推荐、基于内容推荐、协同过滤推荐、基于关联规则推荐和Slope one推荐算法。
6 结束语
针对传统单向推荐系统难以适应工业类和服务类对象网上交易的不足,提出了基于供需双方画像的双向推荐系统解决方案。首先提出双向推荐系统的意义,紧接着介绍了用到的画像技术,然后在分析单向推荐思路基础上引出双向推荐设计思路,最后从框架设计、流程设计进行全面阐述,重点介绍了数据采集预处理、三类画像标签体系和供需匹配和对接实现途径。可在提高供方参与度、迎合定制化对接需求和规范市场方面带来积极意义。但目前提出的框架只是为系统设计提供了方向与指引,其中的一些具体技术细节限于篇幅并未展开,诸如关键词权重的确定、推荐算法的实现与应用、画像模型的更新等。这些有待于系统详细设计和实现中进一步研究解决。
参考文献:
[1]谢然.从五大行业案例看大数据的应用逻辑[J].互联网周刊,2015(2):30-35
[2]张鹏,刘译璟.为消费者画像[J].销售与市场:渠道版,2013(9):30-32
作者简介:马云峰(1983-),男,河北定州人,中国电子科学研究院,高级工程师,硕士,主要研究方向为大数据、计算机软件、云计算。
[关键词]用户画像;双向推荐;推荐系统;标签
中图分类号:H319 文献标识码:A 文章编号:1009-914X(2018)46-0382-01
1 供需双方画像双向推荐对推荐系统优化的意义
用户画像作为用户描述工具,在用户描述和建模上具有优势,但当前主流研究重点在需求方的画像建模方面,建立双方的画像进行双向推荐具有以下几方面的意义
(1)可大大增强供方参与主动性
传统推荐系统单方面把商品推荐给需方,高度的智能化虽然解放了供方,但同时也使得供方的参与度降低,不能及时根据需方的喜好来及时进一步挖掘潜在需求,通过双向推荐,系统把意向用户推荐给供方,如需方没有快速下單,供方可视情况积极主动的与需方进行对接,极有可能促成犹豫期需方的交易。
(2)适用于定制化产品的场景
通过供需双方的直接双向推荐,双方通过会话可针对定制化需求进行深入探讨,可大大增加促成交易的成功率,并且可以根据交易结果,总结提炼细化特征,逐步将定制化产品、技术、能力通用化,从而为基于内容的推荐和基于协同过滤的推荐提供更准确的依据,以便适应传统推荐算法的应用场景。
(3)双方多维画像可客观全面展示供需双方,规范交易市场
通过从消费/支付、信用、偏好、收/发货、态度、风险承受力等多维度客观全面的描述供需双方,使得双方可以从交易对象之外其他领域加深理解,综合评价,进而形成长期合作伙伴,特别适用于工业类产品和个性服务类交易领域。
2 画像概述
在各类个性化推荐系统中,用户画像必不可少。随着互联网的普及与应用,大众在网上的浏览、点击、留言、评论、收藏、打印、保存等碎片化的行为轨迹被整理搜集并存储起来,这些轨迹数据可在一定程度上反映网络用户的性格、偏好、习惯、态度等信息,而这些碎片化的、经过整理存储的数据,能被用来完整地重构消费者的需求,这些从全方位、立体化的记录消费者的数据,被称之为用户画像。将画像技术由传统的消费者扩展到商家,这里的用户画像是对网络上供需双方碎片化行为轨迹整理搜集后用来描述供需双方特点的数据的统称。
3 基于供需双方画像的双向推荐系统框架
3.1 单向推荐的一般思路
一般情况下,单向推荐系统需要经过用户建模、推荐对象建模、项目匹配和推荐输出四个阶段来实现个性化推荐。
用户建模阶段:根据用户网络上的各种行为,提炼特征值,确定权重,产生一个表示用户特有背景知识或兴趣需求的用户模型,该模型能够获取、表示、存储和修改用户兴趣偏好能进行推理。建模方法主要有遗传算法、基于机器学习的方法等。
3.2 双向推荐系统设计思路
在工业品和定制化服务类电子商务领域,由于技术复杂,需要供需双方就技术合作细节进行反复沟通,还存在着双向选择特点,更适合采用双向推荐形式,即建立面向供应方的个性化潜在用户推荐系统和面向需求方的个性化产品/服务/店铺/厂家推荐系统。
4 双向推荐系统框架设计
双向推荐系统从下到上依次分为采集层、预处理层、画像层和应用层。采集层主要用于采集网上供需双方和产品、技术、能力等对象的各类数据,按照采集的位置不同分为客户端采集、服务端采集和第三方采集,其中客户端采集通过在前台页面添加脚本或小程序方式获取行为和内容数据。
预处理层对采集来的各类数据一方面通过去重、补齐字段等方式清洗无效格式数据,另一方面通过规则检查清洗无效评论、恶意刷单等无效内容数据,清洗后的数据按照特定的规则进行标准化,便于后续的处理,标准化后的数据综合运用分类、聚类、本体等技术提取其中的特征值形成特征库。
5 双向推荐系统流程设计
系统用户包括需求方和供应方,以下分别从数据采集与预处理、画像建模、供需匹配和供需对接四个主要步骤进行详细设计。
5.1 数据采集与预处理
数据采集与处理是后续推荐工作的基础,为增强适应性和数据采集的广泛性,系统设计应支持用户(含需求方和供应方)提供数据和系统获取数据两种方式。
提供数据与显式获取用户数据方式类似,系统提供录入界面供用户主动填报个人基本信息、地理位置、年龄段、消费习惯、关注领域、兴趣爱好、主营业务、主打产品等显式信息,供应方用户对此积极性较高,但需求方,由于涉及用户隐私、影响用户使用等因素,积极性不高。
对此,需对需求方用户更多采用系统获取数据的方式进行采集,根据对网站控制权限的不同,系统获取数据有可分为客户端采集、服务端采集和第三方采集。由于采集对象格式技术各异,加之恶意差评、水军泛滥,采集来的数据无论是在格式上还是内容上都需经过预处理才可使用,本系统中设计经过三步完成数据预处理,首先度量数据间的相似度,对数据进行初步处理,其次对数据抽样,在不减少数据主要特征前提下,降低数据集的规模,最后通过降维方法缓解数据稀疏性,通过去噪减少异常数据对推荐结果的影响,保持一定的推荐准确度。
5.2 画像建模
用户画像建模中,数据特征的提取是画像的基础,系统根据这些数据特征来勾画供应方和需求方的画像,用标签来表示这些数据特征,标签本质上是一种资源分类方法,是以关键字的形式对自己喜欢的资源定义的一个或多个主观描述。标签的来源可以分为两类,一是用户自主给出的,国内外的Facebook、Twitter、Youtube、豆瓣、优酷等都支持用户添加标签,二是推荐系统根据采集的数据通过聚类、分类等技术,抽取其中数据特征,经过标准化后,形成系统生成标签。确定由标签表示数据特征后,就可以用标签按照特定的形式来表示用户画像了。
5.3 供需双方匹配与对接
推荐对象画像、需方画像、供方画像设计完毕后,需基于推荐算法进行供需双方的匹配,目前流行的推荐算法包括基于人口统计学推荐、基于内容推荐、协同过滤推荐、基于关联规则推荐和Slope one推荐算法。
6 结束语
针对传统单向推荐系统难以适应工业类和服务类对象网上交易的不足,提出了基于供需双方画像的双向推荐系统解决方案。首先提出双向推荐系统的意义,紧接着介绍了用到的画像技术,然后在分析单向推荐思路基础上引出双向推荐设计思路,最后从框架设计、流程设计进行全面阐述,重点介绍了数据采集预处理、三类画像标签体系和供需匹配和对接实现途径。可在提高供方参与度、迎合定制化对接需求和规范市场方面带来积极意义。但目前提出的框架只是为系统设计提供了方向与指引,其中的一些具体技术细节限于篇幅并未展开,诸如关键词权重的确定、推荐算法的实现与应用、画像模型的更新等。这些有待于系统详细设计和实现中进一步研究解决。
参考文献:
[1]谢然.从五大行业案例看大数据的应用逻辑[J].互联网周刊,2015(2):30-35
[2]张鹏,刘译璟.为消费者画像[J].销售与市场:渠道版,2013(9):30-32
作者简介:马云峰(1983-),男,河北定州人,中国电子科学研究院,高级工程师,硕士,主要研究方向为大数据、计算机软件、云计算。