【摘 要】
:
文本聚类是聚类方法与自然语言处理相结合在文本处理中的应用,是聚类分析领域的一个重要研究分支。随着近年来互联网新闻文本信息的急剧增多,文本聚类的方法得到了很广泛的应
论文部分内容阅读
文本聚类是聚类方法与自然语言处理相结合在文本处理中的应用,是聚类分析领域的一个重要研究分支。随着近年来互联网新闻文本信息的急剧增多,文本聚类的方法得到了很广泛的应用和研究。然而针对当前文本信息结构和内容的复杂化,文本类型的多样化,传统的文本聚类方法在文本模型表示、文本特征选择等方面仍然存在许多不足。本文以收集在2003-2008年期间发生的突发事件新闻文本语料库为基础,对突发事件新闻文本自适应层次聚类进行了初步的研究与探索,改进了突发事件文本的模型表示、文本特征选择方法,并对文本层次聚类提出了优化算法。本文的主要工作如下:1.深入分析了突发事件新闻文本中命名实体的特点,采用命名实体向量模型来表示突发事件新闻文本,并把命名实体作为文本的特征集,提出了一种新的文本特征集更新算法。2.提出了突发事件新闻文本自适应层次聚类算法,分析了传统文本层次聚类算法,并提出优化方法。3.设计并实现了突发事件新闻文本自适应层次聚类算法的实验系统。此实验系统对本文提出的自适应层次聚类方法进行了验证。本文用三个评价指标(准确率,召回率和F值)来验证算法的性能,并与传统方法作了实验比较。实验结果表明,本文提出的自适应文本层次聚类方法可以改进聚类的效果,并在一定程度上降低算法的时间复杂度。
其他文献
为加强GAP基地天麻的质量控制与天麻药材资源的综合开发利用,本研究以高效液相色谱(HPLC)指纹图谱结合指标性成分定量分析的方法,对不同产地、不同类型的天麻进行了综合系统
由丝状真菌引起的人类感染日益多见。研究其致病的分子机制及进行基因诊断就需要获取高质稳定的DNA分子。丝状真菌的生长周期、菌丝形态、孢壁成分等均与酵母样真菌有相当差
采用小波IHS变换、小波PCA变换、EHLERS变换等五种不同融合技术对SPOT 5的多光谱影像和全色影像进行融合,并从均值、标准差等方面对融合结果进行了评价。研究表明:EHLERS融合
在数学课程中,三角至关重要。通过对课程、教材的内容分析,研究者发现:(1)三角函数课程单元课时偏紧、内容偏多。(2)“三角恒等变换”一章学习难度较大。通过对学生解题差错
本文通过对钟律专著——《钟律书》一卷,《钟律纬》一卷,《钟律通考》六卷,《钟律陈数》一卷——四书所述内容的全面考察,初步得出如下结论:钟律一词有着——起源干黄钟、贵
“执行乃法律之终局及果实”。民事执行能否发挥其作用,不仅事关当事人的合法权益能否得到实现,还关乎民事经济秩序的稳定协调和司法权威的树立。正是秉承这一理念和宗旨,笔
肾脏是人体十分重要的器官,它犹如一家24小时的"清洗工厂",不停地滤洗身体内循环的血液,将代谢的废物和多余的水分形成尿液,排出体外。随着年龄的增长,人的肾功能会逐渐下降,
近年来,随着全球森林资源的日益贫乏,人们开始对木材的使用数量进行了限制。但是,人们生活水平的提高,住房条件的改善,使得对装饰材料的需求与要求却越来越高。如何开发研制出一种
目前国内的液体硅橡胶的基础胶α,ω—二羟基聚二甲基硅氧烷(简称羟基聚硅氧烷)的聚合主要采取先聚合再加水降解的间歇聚合工艺,不仅生产效率很低,而且聚合所得的羟基聚硅氧烷粘度
《全日制义务教育语文课程标准(实验稿)》指出:“各地区蕴藏着丰富的语文课程资源,教师应创造性地开展活动,多形式,多途径地学语文,提高学生的语文能力。”可见,新课改要求语