机器学习与文本挖掘若干算法研究

被引量 : 15次 | 上传用户:asd_012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了机器学习和文本挖掘的若干算法。在第一部分,针对支持向量机对海量数据进行分类遇到的困难,基于拓扑学中的Jordan曲线定理,提出了基于分类超曲面的数据分类方法。这一部分研究工作主要有以下几方面创新: (1) 研究了分类超曲面的存在性与几何构造法,并提出了基于几何超曲面的分类方法。其特点如下:不需要选择核函数,不需作升维变换;通用可操作的超曲面构造法;独特的分类判别方法,使得基于非凸超曲面的分类判别变得简便、易行;适合海量数据分类,并有望推广到高维数据分类。 (2) 实现了基于几何超曲面的分类法在二维和三维数据分类。实验结果说明:分类超曲面可以有效地解决大数据量(10~7)的非线性数据的分类问题,以及分布很复杂的数据分类问题,并能够提高分类效率和准确度。 (3) 提出基于几何超曲面的多类分类方法。 (4) 对于高维数据分类问题,采用代数超曲面方法进行分类,并提出了代数超曲面变阶数自适应学习算法,避免了计算的复杂化。 本文第二部分根据目前大规模文本挖掘的需求,研究了文本信息抽取、文本聚类、多篇摘要、概念语义空间、基于概念语义的信息检索等内容,具体包括以下研究成果: (1) 基于隐马尔科夫模型(HMM)的文本信息抽取,面向BibTex条目实现了文本信息抽取,通过引入平滑技术并加入抽取规则,进一步优化了模型,提高了信息抽取的准确率。 (2) 利用SOM进行了多层次文本的自组织聚类,并结合模糊聚类的方法,实现了概念自动生成、类别自动标注、同概念类别自动归并;提出了反复迭代聚类的方法克服由于SOM聚类中遇到的某些类别过大的问题;在SOM聚类的基础上结合模糊聚类的方法实现了概念多层聚类。 (3) 针对事件的多篇新闻报道实现了多篇摘要的生成,引入了粒度的表现方式,可以更有条理、多层次、动态地描述事件和展示事件。 (4) 在文本分类基础上,建立了概念空间,之后按概念空间的层次结构,逐层对相关文档进行概念共现率的分析,构造Hopfield语义网络,并生成具有联想功能的语义索引,分层次建立语义索引构成概念语义空间,概念语义空间能快速、准确、全面地定位待检索的概念。提出概念直接聚类法,用于建立语义索引,具有很好的可扩展性和对称性。 (5) 最后介绍了集成以上文本挖掘技术的概念语义索引系统。
其他文献
社区是开展劳动教育的重要场所,以社区为基点的劳动教育在空间结构、社会认同、学科课程、与人口结构的互动、自主增权、教育供给转型等方面兼具“刚性”和“弹性”的双重发
本文采用有机泡沫浸渍工艺以氧化铝为主要原料,添加高岭土、滑石粉和二氧化硅成功配制的性能良好的泡沫陶瓷过滤器。本文查阅国内外大量的有关资料并进行了深入的理论分析和
我国的农药行业长期以来一直受国家政策的保护,农药流通企业长期处于成本高昂、管理粗放、效率低下的不良局面,即使在平均流通费用率高达14.72%的情况下,企业仍能维持生存。但是,
本文首先对目前市场上几种常用的氟碳树脂进行了耐候性研究。在研究过程中,将自制丙烯酸树脂和氟碳树脂进行掺合做成漆膜后,分别进行了紫外加速老化试验和室外曝晒试验,定期测量
<正>2012年5月6日,宜春市袁州区天台镇五名留守儿童同时溺水而亡。此事令宜春市委、市政府领导和广大市民十分震惊和痛心。人们在追问,人们在思考。早在2011年9月召开的中央
会议
随着我国高速公路建设的进一步发展,投入运营的高速公路出现的各种各样隐患也越来越多。其中桥头跳车是目前公路建设中最常见的通病之一,严重影响了行车舒适性,降低了车辆的行驶
战争诗是《诗经》中重要的诗歌类型之一。本文试图在继承、综合现有研究成果的基础上,从文化、艺术等角度对《诗经》战争诗进行综合研究。着重探讨《诗经》战争诗的界定、《
精神分析创立之初,对父子间的互动的探索一直是理论和临床中的首要问题,但是俄狄浦斯情结之前所出现的可能情结却还没有得到足够的重视,与之相对应的是:母亲作为孩子诞生以后最早
本方案策划的成都棠湖上林苑房地产项目,是四川星慧集团公司拟在成都市双流县东升镇开发的房地产项目。我作为实习生,参与了该项目的开发准备、方案策划和方案撰写工作。在项目
超声图像诊断是与X线CT、同位素扫描、核磁共振(MRI)等一样重要的医学图像诊断手段。超声成像与其它医学成像方法相比,具有对人体无损害、便宜、便捷、能够实时显示器官或组织