一种基于改进的K-means算法的人名消歧系统的设计与实现

来源 :第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会 | 被引量 : 0次 | 上传用户：w00003

【摘要】

：

人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问

【作者】

：

杨欣欣李培峰朱巧明王英帅

【机构】

：

苏州大学计算机科学与技术学院,苏州,215006

【出处】

：

第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会

【发表日期】

：

2010年8期

【关键词】

：

人名消歧聚类最大最小原则 K-means算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题.因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。

其他文献

基于线阵 CCD 的数据采集电路设计

论文对线阵CCD的采集电路进行了研究，设计出线阵CCD的硬件电路。并选用日本SONY公司的三通道线阵CCD传感器芯片ILX558K作为成像器件，分析了CCD驱动电路的逻辑要求，应用现场可编

期刊

线阵CCD现场可编程门阵列PADS驱动时序linear CCD FPGA PADS drive timing

基于稀疏表达的图像超分辨率算法实现

基于学习的超分辨率算法利用样本先验信息重建高分辨率图像,在遥感、刑侦和医学图像领域有着广泛应用。论文分析了前沿的基于稀疏表达的图像超分辨率算法,实现了该算法功能,为了便于基于稀疏表达超分辨率算法的应用,论文设计并实现了基于对话框和参数调节控件的图像超分辨率算法框架,实验结果表明论文实现的算法框架具有良好的可用性和拓展性。

期刊

图像超分辨率稀疏表达算法实现image super-resolution sparse representation algorithm implem

基于旋转矢量法的三维管线建模

管线三维可视化的一个重点问题是对于从原有二维管线中心线数据中计算提取出管线表面顶点的坐标,难点在于弯管处的表面处理。文中提出基于旋转矢量法的三维管线建模方法,能够生成连续的三维管线,并可以控制管线的精细程度。实验表明此方法便于理解,计算量小,生成的管线表面平滑。

期刊

三维GIS三维管线旋转矢量法管线可视化3D GIS 3D pipeline vector rotation pipeline visualizat

基于KRTG的动态拓扑结构的粒子群算法研究

标准的粒子群优化算法作为一种随机全局搜索算法，因其在种群中传播速度过快，易陷入局部最优解。基于KRTG的动态拓扑结构的粒子群算法（KRTGPSO），从粒子间的拓扑结构出发，动态地调整

期刊

动态拓扑结构粒子群KTPG适应度dynamic topology structure particle swarm KRTG fitness

一种改进的TCP拥塞控制算法及仿真

TCP协议提供面向连接、可靠的服务,但应用于时延敏感的实时网络时,并不能保证实时性。当网络负载过大时,会出现拥塞、传输延迟和丢包等问题。为了降低网络拥塞概率,提出了一

期刊

TCP-EB拥塞控制带宽估计实时TCP-EB congestion control bandwidth estimate timeliness

基于模拟退火的文化混合双聚类优化算法

双聚类是用基因表达数据矩阵中部分行与列的相互表达水平，即矩阵中的子矩阵。文章提出一种基于模拟退火的文化混合优化算法，以文化算法为整体框架嵌入模拟退火法，作为种群空间的

期刊

双聚类基因表达数据模拟退火法文化算法bicluster gene expression data simulated annealing algor

基于纯电动车性能指标检测技术的应用

针对当前城市空气大范围严重污染和雾霾天气频现，为改善城市客运交通环境所存在的瓶颈问题，提出环保节能型的纯电动车应用于城市公共交通，替代高能耗高污染的传统公交车，通过多年

期刊

纯电动车城市客运减排效果交通环境BEVurban passenger transporteffect of emission reductiont

改进的基于对极几何的DMVC空间边信息重建

分布式多视点视频系统中,边信息分为时间边信息和空间边信息,其中,基于对极几何的空间边信息生成算法是目前最有效的方法之一。在基于对极几何的边信息估计过程中,为了更准确快速地确定对极线上的搜索起点,论文通过统计分析相邻视点同一时刻帧内特征点偏移的局部集中性,提出了一种基于空间特征点分布特性的搜索起点确定算法。首先对关键帧图像进行分块,计算每个分块的特征点偏移均值;然后基于空间坐标点深度时域局部连续性,

期刊

分布式多视点视频编码对极几何空间边信息特征点偏移分布distributed multi-view video coding epipolar geom

基于UML的装备指挥概念模型研究

概念模型可以有效促进军事领域专家与仿真技术人员的沟通与协作。文章研究了装备指挥概念模型的地位作用和体系构成,分析了装备指挥系统的功能,基于UML的建模机制建立了功能

期刊

统一模型语言装备指挥概念模型unified modeling language equipment command conceptual model

利用尺寸特性的水面目标性质识别

在深入分析水面目标磁场建模方法的基础上，建立舰船和目标设定式扫雷具统一磁场模型。分析模型参数，提出以目标尺寸信息为特征量的目标识别方法，利用遗传算法，实现水面目标性质的

期刊

舰船磁场目标设定式扫雷具遗传算法warship＇ magnetic field target-setting electromagnetism mine

一种基于改进的K-means算法的人名消歧系统的设计与实现

其他学术论文