论文部分内容阅读
摘 要:随着流量资费不断下降,带宽成本下降,服务器成本下降,越来越多的图片被上传到网上,而这些图片也代表了相当多的有价值的内容,市场越来越大,意味着互联网的主流内容正在从文本向图片过渡,图片正在成为内容的一种新形式。
关键词:视觉化,图片,媒体语言,社交媒体
一、社交现状分析
以前,Facebook几乎对各个年龄段的人群都有很强的吸引力,但是现在它对用户群的这种掌控力已经开始出现松动的迹象。
例如,青少年用户虽然还是会经常使用Facebook,但是却不再将它看作是最重要的社交网络。越来越多的青少年开始将Instagram作为他们最重要的社交网络。Instagram和Facebook在青少年用户心目中的地位升降是社交媒体领域最明显的人口统计数据变化趋势之一。 据美国投行Piper Jaffray称,在2012年底,42%的青少年认为Facebook是最重要的社交网络,但是到2015年初的时候,只有14%的青少年是这么认为的,下降了28个百分点。 BI Intelligence广泛收集了大量数据,分析研究了社交媒体用户的人口统计特征以及用户偏好的变化趋势,最终得出了下列结论:
1 Pinterest在女性网民中极有市场。据皮尤在2014年底进行的一项调查显示,42%的美国女性网民正在使用Pinterest,而男性网民使用Pinterest的比例仅为13%。
2 Instagram已经成为美国青少年心目中的最重要和最有用的社交网络。据Piper Jaffray针对青少年消费者进行的最新调查显示,32%的美国青少年认为最重要的社交网络是Instagram,只有14%的青少年选择Facebook。
二、视觉社交的发展前景
在大数据的背景下,用户对于社交软件的需求蒸蒸日上,然而电子社交软件已经到了发展的瓶颈,用户对于交往、认识的群体有了更高的要求与选择目前社交软件行业已经十分发达,但现阶段社交网络存在、同化现象严重,缺乏创新的问题。图像比对虽然已经有相关的技术,但是在实际应用方面还有很大的开发潜力。 图片轻于视频,重于文字,能更快速直观地抓住用户眼球,随着智能手机的普及,拍照摄影成为手机标准配置,图片已经成为社交网站中用户分享信息的主要方式,社交网站“视觉化”趋势日益凸显。
三、本项目平台的功能介绍
本项目主要是一款基于移动平台的系統,接收客户端用户的照片,与云存储及其他用户上传的照片进行相似度比对,找出相似度较高的照片,并反馈所有者信息。同时,实现基础的聊天功能等,及共同兴趣爱好的匹配搜索,本系统还可提供地理位置定位功能,将本人的位置信息发送给好友,以便双方更好地沟通和交流。同时,通过使相同兴趣爱好的用户群聚在一起形成一个个朋友圈后,可以针对不同的兴趣爱好,针对性的提供不同的服务。比如:对于动漫爱好者,本项目可以提供一些礼品、Cosplay等销售途径等。
四、 主要技术
本系统采用的图像处理算法为Adaboost算法。Adaboost 算法是1995 年提出的一种快速人脸检测算法,是人脸检测领域里程碑式的进步,这种算法根据弱学习的反馈,适应性地调整假设的错误率,使在效率不降低的情况下,检测正确率得到了很大的提高。 它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用Adaboost分类器可排除一些不必要的训练数据,将关键放在关键的训练数据上。大量的实验证明,Adaboost算法是有效的将多弱分类器强化成为强分类器的一种方法,经过训练的分类器具有比较好的分类效果,而且速度较快。
五、算法分析 1)过程分析
传统的Boosting算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示: 1. 先通过对N个训练样本的学习得到第一个弱分类器; 2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 ; 3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器; 4. 最终经过提升的强分类器 。即某个数据被分为哪一类要通过的多数表决。 2)算法优缺点 对于Boosting算法,存在两个问题: 1. 如何调整训练集,使得在训练集上训练的弱分类器得以进行; 2. 如何将训练得到的各个弱分类器联合起来形成强分类器。
针对以上两个问题,adaBoost算法进行了调整: 1. 使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点集中在比较难分的训练数据样本上; 2. 将弱分类器联合起来,使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。
AdaBoost算法的具体步骤如下: 1. 给定训练样本集S,其中X和Y分别对应于正例样本和负例样本; T为训练的最大循环次数; 2. 初始化样本权重为1/n ,即为训练样本的初始概率分析; 3. 第一次迭代: (1) 训练样本的概率分布相当下,训练弱分类器; (2) 计算弱分类器的错误率; (3) 选取合适阀值,使得误差最小; (4) 更新样本权重, 经T次循环后,得到T个弱分类器,按更新的权重叠加,最终得到的强分类器。
Adaboost算法是经过调整的Boosting算法,其能够对弱学习得到的弱分类器的错误进行适应性调整。上述算法中迭代了T次的主循环,每一次循环根据当前的权重分布对样本x定一个分布P,然后对这个分布下的样本使用弱学习算法得到一个弱分类器,对于这个算法定义的弱学习算法,对所有的,都有,而这个错误率的上限并不需要事先知道,实际上。每一次迭代,都要对权重进行更新。更新的规则是:减小弱分类器分类效果较好的数据的概率,增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。
六、结论
本文介绍了基于Adabost算法的视觉社交平台的研究与设计,对Adaboost算法进行了有益的探索和研究。本文首先对目前的社交现状及视觉社交网站的发展前景进行了分析。根据用户现实需求,介绍了平台所需的功能及主要技术的介绍和算法的分析。 参考文献: [1] 苏草,林亚明.基于人脸识别的移动终端课堂考勤系统[J].计算机光盘软件与应用, 2014(4):112-113 [2] 曹莹,等. AdaBoost算法研究进展与展望[J], 自动化学报,2013(6):89-92
作者简介:
瞿瑞坚(1994.08-),男,汉族,浙江温州人,本科学生,研究方向:手机及网络系统开发与应用 张琪(1972.9-),男,汉族,江苏南京人,硕士,副教授,研究方向:物联网及其应用技术等;
关键词:视觉化,图片,媒体语言,社交媒体
一、社交现状分析
以前,Facebook几乎对各个年龄段的人群都有很强的吸引力,但是现在它对用户群的这种掌控力已经开始出现松动的迹象。
例如,青少年用户虽然还是会经常使用Facebook,但是却不再将它看作是最重要的社交网络。越来越多的青少年开始将Instagram作为他们最重要的社交网络。Instagram和Facebook在青少年用户心目中的地位升降是社交媒体领域最明显的人口统计数据变化趋势之一。 据美国投行Piper Jaffray称,在2012年底,42%的青少年认为Facebook是最重要的社交网络,但是到2015年初的时候,只有14%的青少年是这么认为的,下降了28个百分点。 BI Intelligence广泛收集了大量数据,分析研究了社交媒体用户的人口统计特征以及用户偏好的变化趋势,最终得出了下列结论:
1 Pinterest在女性网民中极有市场。据皮尤在2014年底进行的一项调查显示,42%的美国女性网民正在使用Pinterest,而男性网民使用Pinterest的比例仅为13%。
2 Instagram已经成为美国青少年心目中的最重要和最有用的社交网络。据Piper Jaffray针对青少年消费者进行的最新调查显示,32%的美国青少年认为最重要的社交网络是Instagram,只有14%的青少年选择Facebook。
二、视觉社交的发展前景
在大数据的背景下,用户对于社交软件的需求蒸蒸日上,然而电子社交软件已经到了发展的瓶颈,用户对于交往、认识的群体有了更高的要求与选择目前社交软件行业已经十分发达,但现阶段社交网络存在、同化现象严重,缺乏创新的问题。图像比对虽然已经有相关的技术,但是在实际应用方面还有很大的开发潜力。 图片轻于视频,重于文字,能更快速直观地抓住用户眼球,随着智能手机的普及,拍照摄影成为手机标准配置,图片已经成为社交网站中用户分享信息的主要方式,社交网站“视觉化”趋势日益凸显。
三、本项目平台的功能介绍
本项目主要是一款基于移动平台的系統,接收客户端用户的照片,与云存储及其他用户上传的照片进行相似度比对,找出相似度较高的照片,并反馈所有者信息。同时,实现基础的聊天功能等,及共同兴趣爱好的匹配搜索,本系统还可提供地理位置定位功能,将本人的位置信息发送给好友,以便双方更好地沟通和交流。同时,通过使相同兴趣爱好的用户群聚在一起形成一个个朋友圈后,可以针对不同的兴趣爱好,针对性的提供不同的服务。比如:对于动漫爱好者,本项目可以提供一些礼品、Cosplay等销售途径等。
四、 主要技术
本系统采用的图像处理算法为Adaboost算法。Adaboost 算法是1995 年提出的一种快速人脸检测算法,是人脸检测领域里程碑式的进步,这种算法根据弱学习的反馈,适应性地调整假设的错误率,使在效率不降低的情况下,检测正确率得到了很大的提高。 它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用Adaboost分类器可排除一些不必要的训练数据,将关键放在关键的训练数据上。大量的实验证明,Adaboost算法是有效的将多弱分类器强化成为强分类器的一种方法,经过训练的分类器具有比较好的分类效果,而且速度较快。
五、算法分析 1)过程分析
传统的Boosting算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示: 1. 先通过对N个训练样本的学习得到第一个弱分类器; 2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 ; 3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器; 4. 最终经过提升的强分类器 。即某个数据被分为哪一类要通过的多数表决。 2)算法优缺点 对于Boosting算法,存在两个问题: 1. 如何调整训练集,使得在训练集上训练的弱分类器得以进行; 2. 如何将训练得到的各个弱分类器联合起来形成强分类器。
针对以上两个问题,adaBoost算法进行了调整: 1. 使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点集中在比较难分的训练数据样本上; 2. 将弱分类器联合起来,使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。
AdaBoost算法的具体步骤如下: 1. 给定训练样本集S,其中X和Y分别对应于正例样本和负例样本; T为训练的最大循环次数; 2. 初始化样本权重为1/n ,即为训练样本的初始概率分析; 3. 第一次迭代: (1) 训练样本的概率分布相当下,训练弱分类器; (2) 计算弱分类器的错误率; (3) 选取合适阀值,使得误差最小; (4) 更新样本权重, 经T次循环后,得到T个弱分类器,按更新的权重叠加,最终得到的强分类器。
Adaboost算法是经过调整的Boosting算法,其能够对弱学习得到的弱分类器的错误进行适应性调整。上述算法中迭代了T次的主循环,每一次循环根据当前的权重分布对样本x定一个分布P,然后对这个分布下的样本使用弱学习算法得到一个弱分类器,对于这个算法定义的弱学习算法,对所有的,都有,而这个错误率的上限并不需要事先知道,实际上。每一次迭代,都要对权重进行更新。更新的规则是:减小弱分类器分类效果较好的数据的概率,增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。
六、结论
本文介绍了基于Adabost算法的视觉社交平台的研究与设计,对Adaboost算法进行了有益的探索和研究。本文首先对目前的社交现状及视觉社交网站的发展前景进行了分析。根据用户现实需求,介绍了平台所需的功能及主要技术的介绍和算法的分析。 参考文献: [1] 苏草,林亚明.基于人脸识别的移动终端课堂考勤系统[J].计算机光盘软件与应用, 2014(4):112-113 [2] 曹莹,等. AdaBoost算法研究进展与展望[J], 自动化学报,2013(6):89-92
作者简介:
瞿瑞坚(1994.08-),男,汉族,浙江温州人,本科学生,研究方向:手机及网络系统开发与应用 张琪(1972.9-),男,汉族,江苏南京人,硕士,副教授,研究方向:物联网及其应用技术等;