互联网人物信息排歧技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：t60720372f

【摘要】

：

随着Internet及其相关技术的飞速发展,WWW已成为最大的信息集散地。无论对企业还是个人,Web逐渐成为最主要的信息来源。然而由于网站数量过多以及由此带来的信息泛滥,使得有

【作者】

：

马二磊

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2010年期

【关键词】

：

排歧社会网络领域分类社会属性特征库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet及其相关技术的飞速发展,WWW已成为最大的信息集散地。无论对企业还是个人,Web逐渐成为最主要的信息来源。然而由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难,搜索引擎只能提供信息的查找范围,而具体的内容还要靠详细搜查。在人物信息查询的时候,返回的信息比较庞大,还有太多的重复,并且信息准确度不高。为此,建立人物信息排歧系统,目的在于使用户更快、更方便的得到所需信息,并且最终结果简单、精炼、美观。本文利用不同的人物处于不同的领域这个特性,将人物文档信息分为文娱、行政、军事、科教、体育、医疗、经济等七个类别,避免了不同领域人物之间的信息处理,提高了系统的效率,并且根据这种方法进行预分类,召回率很高,确保了不同领域人物信息不会进行交叉,从而减少了在后续的处理中不同领域人物信息聚为一类的错误。本文实现了利用社会网络和上下文信息进行结合的人物排歧处理。单用社会网络或者是上下文信息都不能很好的进行人物信息排歧,用社会网络会出现通篇只有一个人名或者其社会网络非常小等情况,不能很好的进行聚类处理,用上下文信息,文档中的上下文有时不能很好的说明人物特性,处理效果不是很好,利用两种方法相结合能很好的提高系统的准确率和召回率。利用社会网络对人物信息进行聚类,准确率高,但是召回率低,这时利用上下文信息进行再处理,进而提高了召回率,从而确保较高的准确率和召回率。人物信息处理系统是通过人名检索,利用网络爬虫爬取网页,进而利用人物领域信息进行预分类,利用社会网络和上下文信息进行聚类,最终在系统界面进行显示不同人物实体所对应的网络信息的一个检索系统。

其他文献

可重构加速平台下基于面积性能比的多任务调度优化策略研究

传统的计算机体系结构中,运算单元一般可以分为两类：一类是通用处理单元,该类运算单元依循特定指令集,通过软件编程方式进行运算,其特点是通用性强但性能不高；第二类是采用ASIC

学位

可重构加速平台多任务调度面积性能比

基于实例的归纳学习在遗传算法策略优选中的应用研究

遗传算法是一种基于概率导向的随机搜索算法,已被成功地应用到多种学习任务和最优化问题中。对于遗传算法,策略(包括算法流程、算子及其控制参数)的设计和选择至关重要,会对

学位

遗传算法函数优化表达式构造归纳学习策略优选

基于规则的关联数据压缩研究

随着语义Web技术的标准化,关联数据在各领域得到广泛推广和应用,使得关联数据的发布达到空前规模,这导致了关联数据的存储和传输难度增大。通过压缩技术减小关联数据体积的方

学位

关联数据规则实体描述模式压缩

基于单字典稀疏表示的图像超分辨率重建技术研究

图像的超分辨率重建是指从相同场景的单幅或多幅低分辨率图像中重构出一幅包含更丰富细节的高分辨率图像的技术。这一技术突破了硬件成像系统的限制,经济且有效地提高了图像

学位

稀疏表示超分辨率自适应单字典

MapReduce框架下的增量计算技术及算法研究

当今的大数据应用往往具有一个共同的特点,同样的计算往往在不断变化的数据上重复执行,例如社交网络数据和网页数据。在这些应用中只是少量数据发生改变,如果重新计算则工作

学位

MapReduce增量计算矩阵乘法Hadoop

社保联网审计中增量数据分布式处理的研究

近年来,随着互联网和分布式计算的发展,海量数据处理的性能有了很大提升。在许多应用领域中,都需要从海量数据中提取出增量数据来满足某种业务需求,尤其是对于不断更新的源数

学位

分布式计算增量数据负载均衡社会保障审计

异构数据资源汇聚的模式及优化问题研究

企业的信息资源具有分布式和异构性等特点,随着通用数据访问提供多源、异构数据源的统一访问方式,用户通过统一访问接口可以访问数据源中的数据,继而通过可视化建模工具对数

学位

异构数据源数据汇聚模式映射优化投影

基于SIP协议的语音浏览器的设计与实现

鉴于传统语音应用系统获取信息手段单一、信息量少、成本高等缺点,本文在分析SIP协议和VoiceXML技术的基础上,采用软交换技术设计并开发了基于SIP协议的语音浏览器,实现电话

学位

语音浏览器VoiceXMLVoIPSIP

中文医疗知识图谱半自动化构建研究

百度指数发布的《中国网民科普需求搜索行为报告》表示人们最关注“健康与医疗”科普主题,但是目前大部分有关医疗的语义搜索、查询理解和自动问答都需要依赖于其背景知识图

学位

中文医疗知识图谱弱监督卷积神经网络

基于内容的快速音频检索

随着互联网应用的不断发展,传统的基于文本的音频搜索引擎在用户体验上已经无法满足人们日益增长的使用需求。近年来,基于内容的音频检索(Content-Based Audio Retrieval,CBA

学位

基于内容的音频检索局部敏感哈希倒排索引k-字近邻搜索

互联网人物信息排歧技术研究

其他学术论文