一种并行的信息检索方法--基于最小分块的PageRank实现

来源 :信息系统协会中国分会第六届学术年会 | 被引量 : 0次 | 上传用户:bldhdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代对信息检索效率提出了愈来愈高的要求.结合矩阵分块实现并行计算是提高PageRank检索效率的常用方法,但分块规则不理想时,分块后的并行计算将较为复杂,影响信息检索效率.提出一种基于最小分块,采用MapReduce框架实现PageRank算法的方法.实质是将结果矩阵中每次计算所需的元素作为最小分块,使用MapReduce并行框架分块存储计算.由于分块简单,计算所需分块在本地存储,减少了I/O传输开销.实验环境采用Hadoop平台,通过筛选和抽样方法,形成数据规模和稀疏度不同的实验矩阵,实验表明实现方法提高了PageRank算法的计算效率,从而奠定了改善信息检索效率的基础.
其他文献
越来越多的企业利用社会化媒体开展市场营销和客户服务.然而,社会化媒体的商业价值如何,能否提升企业知名度并扩大潜在受众是学术界和业界关注的热点问题.本文以微博平台为研究对象,研究企业微博对用户口碑的影响.本研究抓取了新浪微博上30家企业微博的相关数据,进行面板数据回归分析.结果显示,积极地运营企业微博能够引发用户的参与行为,进而影响品牌的认知度.本研究成果丰富了IT商业价值研究,对企业具有一定的指导
社会化媒体的快速发展为企业社会化商务的开展提供了新的途径与平台.论文基于技术接受模型(TAM),运用结构方程模型对企业社会化媒体的用户参与意愿展开研究.研究结果表明;感知有用性、感知易用性会对社会化媒体的使用意愿产生显著的正向影响,使用意向会对使用行为产生显著的正向影响.本研究结果可以为企业制定富有针对性的社会化媒体营销策略提供有价值的参考与借鉴.
本文是对涉及四方利益主体的网络舆情形成机制的研究.在界定各参与主体收益和成本的基础上,构建四方演化博弈模型,并对相应模型进行求解和均衡条件分析,挖掘其中包含的舆情危机化解策略.最后,对本次研究进行简要总结,提出其中的不足和未来的研究方向.
以政府应对网络舆情为应用背景,引入面向政府的网络舆情知识服务,用以解决应对网络舆情过程中政府的知识需求问题.在构建知识组织-知识供应的两阶段知识服务流程模型的基础上,剖析了面向政府的网络舆情知识服务功能模型,提出了基于OGSA的网络舆情知识服务平台架构和知识服务节点拓扑结构的实现方式,初步搭建了面向政府的网络舆情知识服务体系框架,为实现网络舆情知识向政府管理者的有效供应提供了参考.
随着互联网的迅猛发展,公众逐渐开始通过社交媒体来发表自己对于社会事件的看法.在Web2.0时代公众广泛参与的理念下,对上述信息的有效分析并将结果以合理形式展现对于舆情监测有着重要意义.鉴于此,本文提出了一种新颖的基于社交平台的舆情分析方法,采用概率主题模型LDA抽取公众对于某一事件的不同主题观点,利用深度学习的word2vec模型计算出每条文本的情感强度,分别对事件整体以及事件下各潜在主题进行情感
影响力最大化是社会化营销的热点研究内容.目前关于影响力最大化的研究通常基于网络拓扑结构的视角,忽视了消费者兴趣、企业成本等因素.本文基于多目标优化的视角,考虑结构影响力、用户兴趣和企业成本等因素,构建影响力最大化的多目标优化模型.为了提高优化效果,本文用经典的影响力最大化算法获得有影响力的节点作为候选种子集,基于改进的线性阈值模型计算种子集合的结构影响力、所影响用户的兴趣度和企业成本,并利用多目标
在线社区的信息作为一项重要的用户生成内容(User Generated Content,UGC),已逐渐成为很多人决策的依据,但信息的爆炸式增长导致人们无法对这类信息进行有效的分析和处理,这大大降低了决策的质量和效率.在线社区的海量信息中,比较意见是对人们决策非常有用的一类信息,这类信息内容明确,同时对决策过程具有指导作用.但当前对于比较意见的提取研究主要针对网络购物平台,针对在线社区的研究较为少
在线评论为人们在网络上购物提供了大量参考信息,也成为影响消费者购买决策的重要因素.线上评价体系中的好评率成为用户选择店铺和商品首先考虑的因素,由此导致店铺和商品的好评率也越来越高,由于消费者会从不同的维度来揣摩好评的文本内容,因此从整体来揣摩好评的本意就不尽准确.本文从情感倾向角度来研究好评的文本内容对用户购买决策的影响,以从众效应和归因理论为基础,依据信息易获得性与诊断力理论,用情感倾向分析方法
实时竞价(Real Time Bidding,RTB)是基于互联网和大数据而产生的一种精准营销模式,通过购买目标受众,实现了广告的精准营销.广告需求方平台(Demand Side Platform,DSP)位于RTB广告整个产业链的需求端,其目标市场细分策略是RTB广告实现精准营销的重要前提.本文对DSP的市场细分策略进行初步探索,基于数学规划方法建立市场细分粒度选择模型,并设计实验对模型进行评估
K-means聚类算法简单高效,适合处理大规模数据,在文本挖掘领域应用广泛,但算法对初始聚类中心的选择非常敏感.本文基于LDA主题模型提出一种优化K-means初始聚类中心的算法.首先通过LDA主题抽取降低文档特征向量维度,将文档映射到主题空间,通过文档的主题特征确定初始聚类中心的选择;然后,利用平均准确率、F-Score和熵作为文本聚类效果评价指标,对选取的初始聚类中心的聚类结果进行评价.选取标