机器学习与文本挖掘若干算法研究

被引量 : 15次 | 上传用户：asd_012

【摘要】

：

本文研究了机器学习和文本挖掘的若干算法。在第一部分，针对支持向量机对海量数据进行分类遇到的困难，基于拓扑学中的Jordan曲线定理，提出了基于分类超曲面的数据分类方法。这一

【作者】

：

何清

【发表日期】

：

2002年01期

【关键词】

：

机器学习基于超曲面的分类法信息抽取隐式马尔可夫模型文本聚类自组织映射多篇摘要概念语义空间直接模糊聚类法语义索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文研究了机器学习和文本挖掘的若干算法。在第一部分，针对支持向量机对海量数据进行分类遇到的困难，基于拓扑学中的Jordan曲线定理，提出了基于分类超曲面的数据分类方法。这一部分研究工作主要有以下几方面创新： (1) 研究了分类超曲面的存在性与几何构造法，并提出了基于几何超曲面的分类方法。其特点如下：不需要选择核函数，不需作升维变换；通用可操作的超曲面构造法；独特的分类判别方法，使得基于非凸超曲面的分类判别变得简便、易行；适合海量数据分类，并有望推广到高维数据分类。 (2) 实现了基于几何超曲面的分类法在二维和三维数据分类。实验结果说明：分类超曲面可以有效地解决大数据量(10~7)的非线性数据的分类问题，以及分布很复杂的数据分类问题，并能够提高分类效率和准确度。 (3) 提出基于几何超曲面的多类分类方法。 (4) 对于高维数据分类问题，采用代数超曲面方法进行分类，并提出了代数超曲面变阶数自适应学习算法，避免了计算的复杂化。本文第二部分根据目前大规模文本挖掘的需求，研究了文本信息抽取、文本聚类、多篇摘要、概念语义空间、基于概念语义的信息检索等内容，具体包括以下研究成果： (1) 基于隐马尔科夫模型(HMM)的文本信息抽取，面向BibTex条目实现了文本信息抽取，通过引入平滑技术并加入抽取规则，进一步优化了模型，提高了信息抽取的准确率。 (2) 利用SOM进行了多层次文本的自组织聚类，并结合模糊聚类的方法，实现了概念自动生成、类别自动标注、同概念类别自动归并；提出了反复迭代聚类的方法克服由于SOM聚类中遇到的某些类别过大的问题；在SOM聚类的基础上结合模糊聚类的方法实现了概念多层聚类。 (3) 针对事件的多篇新闻报道实现了多篇摘要的生成，引入了粒度的表现方式，可以更有条理、多层次、动态地描述事件和展示事件。 (4) 在文本分类基础上，建立了概念空间，之后按概念空间的层次结构，逐层对相关文档进行概念共现率的分析，构造Hopfield语义网络，并生成具有联想功能的语义索引，分层次建立语义索引构成概念语义空间，概念语义空间能快速、准确、全面地定位待检索的概念。提出概念直接聚类法，用于建立语义索引，具有很好的可扩展性和对称性。 (5) 最后介绍了集成以上文本挖掘技术的概念语义索引系统。

其他文献

回归与进化:劳动教育再发展与社区教育治理体系构建的互动逻辑

社区是开展劳动教育的重要场所,以社区为基点的劳动教育在空间结构、社会认同、学科课程、与人口结构的互动、自主增权、教育供给转型等方面兼具“刚性”和“弹性”的双重发

期刊

劳动教育发展社区教育治理互动逻辑

陶瓷浆料成分及流变性对泡沫陶瓷过滤器性能的影响

本文采用有机泡沫浸渍工艺以氧化铝为主要原料,添加高岭土、滑石粉和二氧化硅成功配制的性能良好的泡沫陶瓷过滤器。本文查阅国内外大量的有关资料并进行了深入的理论分析和

学位

泡沫陶瓷过滤器有机泡沫浸渍工艺流变性烧结性能助烧剂

仙隆农资集团农药事业部现代物流系统的构建研究

我国的农药行业长期以来一直受国家政策的保护，农药流通企业长期处于成本高昂、管理粗放、效率低下的不良局面，即使在平均流通费用率高达14.72％的情况下，企业仍能维持生存。但是，

学位

物流管理供应链管理仙隆集团农药事业部农药企业

低表面能防腐耐候氟碳涂料的研究

本文首先对目前市场上几种常用的氟碳树脂进行了耐候性研究。在研究过程中，将自制丙烯酸树脂和氟碳树脂进行掺合做成漆膜后，分别进行了紫外加速老化试验和室外曝晒试验，定期测量

学位

氟碳树脂耐候性紫外老化自清洁接触角

留守儿童问题系统化解决的路径——构建留守儿童的立体公共服务网

<正>2012年5月6日,宜春市袁州区天台镇五名留守儿童同时溺水而亡。此事令宜春市委、市政府领导和广大市民十分震惊和痛心。人们在追问,人们在思考。早在2011年9月召开的中央

会议

粉喷桩联合土工格栅加固桥台软基理论及工程应用

随着我国高速公路建设的进一步发展，投入运营的高速公路出现的各种各样隐患也越来越多。其中桥头跳车是目前公路建设中最常见的通病之一，严重影响了行车舒适性，降低了车辆的行驶

学位

粉喷桩土工格栅桥台差异沉降软基工程应用

《诗经》战争诗研究

战争诗是《诗经》中重要的诗歌类型之一。本文试图在继承、综合现有研究成果的基础上,从文化、艺术等角度对《诗经》战争诗进行综合研究。着重探讨《诗经》战争诗的界定、《

学位

《诗经》战争诗情感倾向民族文化心理艺术成就

从想象母亲到象征母亲

精神分析创立之初，对父子间的互动的探索一直是理论和临床中的首要问题，但是俄狄浦斯情结之前所出现的可能情结却还没有得到足够的重视，与之相对应的是：母亲作为孩子诞生以后最早

学位

想象母亲象征母亲人格结构代情结

成都棠湖上林苑房地产项目开发方案

本方案策划的成都棠湖上林苑房地产项目，是四川星慧集团公司拟在成都市双流县东升镇开发的房地产项目。我作为实习生，参与了该项目的开发准备、方案策划和方案撰写工作。在项目

学位

房地产开发项目项目策划项目营销

基于小波的医学超声图像去斑点噪声方法

超声图像诊断是与X线CT、同位素扫描、核磁共振(MRI)等一样重要的医学图像诊断手段。超声成像与其它医学成像方法相比，具有对人体无损害、便宜、便捷、能够实时显示器官或组织

学位

超声离散小波变换斑点噪声软阈值广义高斯分布

机器学习与文本挖掘若干算法研究

其他学术论文