网络信息文本挖掘若干问题研究

被引量 : 3次 | 上传用户：winterdxm7124

【摘要】

：

面对规模庞大、维数极高的文本信息,如何设计合理的、便于扩展的文本挖掘算法已成为数据挖掘领域的热点方向。针对这一方向,本文对文本挖掘所涉及的若干问题进行了深入研究,

【作者】

：

曹奇敏

【发表日期】

：

2015年01期

【关键词】

：

文本挖掘特征聚簇非连续短语半监督K-means算法比例倒数加权相似度矩阵 KNN算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对规模庞大、维数极高的文本信息,如何设计合理的、便于扩展的文本挖掘算法已成为数据挖掘领域的热点方向。针对这一方向,本文对文本挖掘所涉及的若干问题进行了深入研究,主要创新点包含如下五方面:1.针对传统的向量空间模型维数过高并且不能处理同义词与近义词的问题,本文提出基于特征聚簇的向量空间模型,该模型首先将每个特征进行向量表示;然后将这些特征进行聚类,将得到的每一个聚簇整体作为一个特征;此外,针对专有名词的非连续短语进行识别,使得文本表示向量中的特征信息变得更为丰富、精准。这种方法不但能够有效降低文本向量的维度,而且能进一步体现文本特征之间的语义关系,因而能够提高文本挖掘的质量。实验结果证明,使用该方法得到的文本表示向量具有较高的特征约简率,聚类F值较传统方法也有明显的提升。2.传统的K-means算法对于初始中心点的选择是随机的,容易引起分析结果的波动。针对这一问题,本文提出一种基于相似度矩阵的K-means算法。该方法不再随机地选取初始聚簇中心,而是使用相似度矩阵有针对性地选择更加有效的初始聚簇中心,这样能为整个聚类过程产生一个良好的开端,也降低了初始中心点对最终的聚类结果所造成的不稳定性影响,从而能够取得较好的聚类质量。实验结果表明改进的算法使聚类的F值得到了明显的提高,并且聚类结果也比较稳定。3.针对文本挖掘应用面临的标注数据不充足的现象,本文提出半监督K-means算法。这种方法同时使用标注数据和未标注数据,它充分利用已标注数据的特点来辅助未标注数据的标注。该方法在选择初始点时,一部分使用标注数据的类别中心点,另一部分则使用距离已选的标注数据较远的未标注数据,这样能够保证初始点分属于不同的聚簇,从而获得较高准确率的结果。实验结果表明该算法是一种有效的方法,在一定程度上解决了标注数据不充足的问题。4.不均衡训练语料是一种普遍现象,它会造成分类质量的下降。针对这种现象,本文提出混合加权KNN算法。这种方法通过分析训练样本的分布情况,使用比例倒数加权,使得每个训练样本落到待分类样本区域中的可能性相等,从而不再受类别分布不均衡的影响,同时还结合距离加权,保证了训练样本距离待分类样本越近,其权重就会越大,获得比较理想的分类效果。实验结果表明该算法可以获得较好的分类准确率,是一种解决针对不均衡训练语料分类问题的有效方法。5.为了提高运算效率和便于处理大数据集,对本文提出的文本聚类和文本分类算法进行基于MapReduce的并行化处理,并把这些算法作为模块集成于一个完整的文本挖掘系统,实现文本挖掘全流程的自动化处理。实验结果表明对所改进算法的并行化处理,一方面没有影响文本挖掘的准确率,另一方面还大大提高了运行效率。

其他文献

巴基斯坦的战略地位与中巴关系的未来

巴基斯坦在中国的周边环境和外交中具有重要的战略地位。作为中国通往西亚和中东的重要桥梁和南亚地区战略平衡和稳定的重要角色,巴基斯坦对中国具有独特的商业、安全和战略

期刊

巴基斯坦战略地位中巴关系

对《献给艾米丽的玫瑰》的三种认知解读

小说《献给艾米丽的玫瑰》是著名作家威廉.福克纳所著的一篇优秀短篇小说。他是一位注重探索小说创作形式和艺术手法的现代主义作家,他通过颠倒时空和特殊的视角成功地展现了

期刊

《献给艾米丽的玫瑰》认知方式图形背景理论框架理论思维风格理论

她有一颗童心——访中央电视台节目主持人鞠萍

<正> 大家还记得鞠萍姐姐吗?她那亲切甜美的声音伴随我们度过了许多美好时光。不仅小朋友们喜欢她,就连我们的爸爸妈妈也很敬佩她。2003年8月,我们《现代家教》小记者团在北

期刊

中央电视台

浅谈农民工的城市适应问题

改革开放以来,大量的农村剩余劳动力向城镇转移,形成了声势浩大的“民工潮”,但进城农民工与城市的关系表现出矛盾的不和谐的态势。农民工进城后不能很好地融入和适应城市环

期刊

农民工城市适应城市化障碍因素

我国科技社团参与决策咨询的作用分析

随着我国社会经济科技的发展,政府决策问题的专业性、技术性及综合性越来越强,科技社团作为科学工作者的群众组织,其独特的性质、组织形式及活动方式使其在政府决策咨询中拥

期刊

科技社团决策咨询

新形势下如何培养大学生创业精神

受全球经济危机影响,给日益严峻的就业市场带来了新的挑战,不论是就业还是创业,当代大学生都必须具备创业精神。如何培养大学生勇于创新、敢于创造、乐于创业的精神,是全社会

期刊

大学生创业精神培养

汉初纵横家活动研究

汉初与战国时期较为相似的政治环境是当时纵横家活跃的原因。蒯通、邹阳及公孙豸矍的游说活动表明了纵横家学说在汉初的复兴。这个时期的纵横家一方面继承了战国末期纵横家擅

期刊

汉初纵横家权变融通儒学

某市1250名成年人牙周病患病率调查分析

目的了解佛山市成年人牙周病患病情况,以便制定正确的预防措施,提高口腔健康水平。方法对佛山市1250名成年人进行口腔健康状况普查。结果 1250人共发现牙周病患者125例,发生

期刊

成年人牙周病患病率

Linux下文件格式模糊测试的实现

概述模糊测试技术,分析Linux系统下实现文件格式模糊测试的程序流程,重点从构建异常元素、生成测试用例、确定需要监视的系统信号、利用调试器监视子进程的运行并捕捉触发漏

期刊

模糊测试漏洞系统信号测试用例

空腔结构复合填充墙-钢框架抗侧力性能试验研究

通过空腔结构复合填充墙-钢框架和同尺寸纯钢框架的对比试验,分析了空腔结构复合填充墙-钢框架的抗侧力性能和滞回性能。研究结果证明空腔结构复合填充墙是一种理想的抗侧力

期刊

空腔结构钢框架抗侧刚度

网络信息文本挖掘若干问题研究

其他学术论文