论文部分内容阅读
随着Web2.0技术的发展,互联网在线服务已经逐渐变成人们日常生活中不可或缺的组成部分。网络使用过程中所产生的文字、图像、音频、视频以及服务使用记录等共同构成互联网UGC(用户生成内容)的海洋。一方面,新技术的应用和流行能够为人们日常生活带来诸多便利,因而激发用户需求的日益膨胀。另一方面,新技术的诞生、成熟以及应用阶段也面临着各类挑战和困难,从而产生诸多亟需解决的问题。本文从四个方面对社会化媒体上的用户观点和行为进行分析和研究。第一,提出一种基于反义距离概念的反义疑问观点的特征构建方法以及观点文本建模方法。由于互联网文本具有海量,不规范,短文本等特性,本文提出用反义距离RDT概念筛选语言模式来构建特征库,并利用组特征GF计算文本和特征库之间的相似程度。验证实验结果表明该方法在多种机器学习分类算法下能够达到较高的识别准确率,同时由于特征向量被降维,能够减少建模的时间开销。文中亦对平滑因子以及反义特征库筛选阈值参数对识别准确率的影响进行分析和讨论。第二,提出一种基于结构性上下文的主观表述库扩展方法。由于基于词典的扩展方法新词发现能力受限,扩展规模较小,依赖分词和词性工具等不足;另外,基于语料库的利用连接词语言规则和基于共现规则发现主观表述的方法存在对备选主观表述覆盖度低的不足。因此,本文选用结构上下文来指导主观表述库的扩展,它利用信息量和点互信息PMI概念来度量结构上下文对于种子词汇出现事件的预测能力,以及上下文和备选表述的使用环境相似性,并计算和推断备选表述的主观性指标值。验证实验结果表明该方法能有效地构建精准,新颖主观表述库,并能充分补充其它方法生成的表述库。第三,提出一种计算知识分享社区中用户知识贡献能力的方法。传统知识分享网站由于社交特性的加入,知识从原本存储于服务器上的静态内容转变分散在各个潜在用户处的动态知识。服务核心任务由查询-内容相似性识别转变为潜在用户知识提供能力度量上。本文对用户活跃度,内容质量以及社会影响力几个角度的能力指标进行分析和量化,通过改进的社会网路链接分析方法来得到综合指标,生成系统推荐用户列表。此外,文中还对全网迭代值的计算收敛性进行分析和研究。验证实验结果表明知识贡献能力模型能够有效为用户的各方面能力进行综合建模,防止单一指标出现的筛选偏差。文中对衰减因子对用户能力筛选倾向性影响以及计算收敛性的影响进行分析和讨论。此外,文中还提供不同能力指标对于综合能力贡献权重的分配方案。第四,提出一种计算互联网微博用户媒体信息能力的方法。微博上海量用户帐号给新注册用户筛选待订阅的信息源帐号带来障碍,本文提出媒体源能力模型来衡量微博账号提供新闻内容的能力。该方法量化用户的个人活跃度、用户所提供内容的可信程度、用户所提供的内容量、用户稳定输出内容的能力。通过集中意见模型加权波达排序方法将不同能力空间的排序结果映射到统一的度量指标上,得到用户媒体能力的最终排序结果。验证实验结果表明媒体能力模型能够有效刻画用户提供媒体资讯内容的能力,遴选出综合能力表现突出的账号。