论文部分内容阅读
本文研究了机器学习和文本挖掘的若干算法。在第一部分,针对支持向量机对海量数据进行分类遇到的困难,基于拓扑学中的Jordan曲线定理,提出了基于分类超曲面的数据分类方法。这一部分研究工作主要有以下几方面创新: (1) 研究了分类超曲面的存在性与几何构造法,并提出了基于几何超曲面的分类方法。其特点如下:不需要选择核函数,不需作升维变换;通用可操作的超曲面构造法;独特的分类判别方法,使得基于非凸超曲面的分类判别变得简便、易行;适合海量数据分类,并有望推广到高维数据分类。 (2) 实现了基于几何超曲面的分类法在二维和三维数据分类。实验结果说明:分类超曲面可以有效地解决大数据量(10~7)的非线性数据的分类问题,以及分布很复杂的数据分类问题,并能够提高分类效率和准确度。 (3) 提出基于几何超曲面的多类分类方法。 (4) 对于高维数据分类问题,采用代数超曲面方法进行分类,并提出了代数超曲面变阶数自适应学习算法,避免了计算的复杂化。 本文第二部分根据目前大规模文本挖掘的需求,研究了文本信息抽取、文本聚类、多篇摘要、概念语义空间、基于概念语义的信息检索等内容,具体包括以下研究成果: (1) 基于隐马尔科夫模型(HMM)的文本信息抽取,面向BibTex条目实现了文本信息抽取,通过引入平滑技术并加入抽取规则,进一步优化了模型,提高了信息抽取的准确率。 (2) 利用SOM进行了多层次文本的自组织聚类,并结合模糊聚类的方法,实现了概念自动生成、类别自动标注、同概念类别自动归并;提出了反复迭代聚类的方法克服由于SOM聚类中遇到的某些类别过大的问题;在SOM聚类的基础上结合模糊聚类的方法实现了概念多层聚类。 (3) 针对事件的多篇新闻报道实现了多篇摘要的生成,引入了粒度的表现方式,可以更有条理、多层次、动态地描述事件和展示事件。 (4) 在文本分类基础上,建立了概念空间,之后按概念空间的层次结构,逐层对相关文档进行概念共现率的分析,构造Hopfield语义网络,并生成具有联想功能的语义索引,分层次建立语义索引构成概念语义空间,概念语义空间能快速、准确、全面地定位待检索的概念。提出概念直接聚类法,用于建立语义索引,具有很好的可扩展性和对称性。 (5) 最后介绍了集成以上文本挖掘技术的概念语义索引系统。