【摘 要】
:
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训
【机 构】
:
江西师范大学计算机信息工程学院,江西南昌,330022 江西财经大学信息管理学院,江西南昌,330013
【出 处】
:
第四届全国信息检索与内容安全学术会议
论文部分内容阅读
作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类.实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类效果.同时,通过两阶段聚类方式不仅能有效地进行特征选择,而且聚类效果得到很大提高.本文最后还利用特征之间的语义关联关系在进行特征选择之后进行特征扩展,使聚类效果得到了进一步的提高.
其他文献
在人类社会中,人们所使用的词语是有社会性和个体性双重性质的,—个词语对于不同的人或者是同一个人生命的不同时期来讲,由于个体经验的不同,人们所对同一个词语语义的理解就会有所不同,而现在大部分的信息检索系统和搜索引擎都是按照词语的社会平均认识来进行检索并给出结果的,这就在相当程度上造成了人们进行信息检索时检索结果的查全率和查准率的下降.为了对这种状况进行改进,本文根据词语的社会性和个体性,从个人对于词
本文提出一种基于TextRank的多文档关键词抽取方法,该方法利用ATF*PDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键词之间的语义相似关系建立TextRank模型,递归计算至收敛,最后生成关键词序列并抽取关键词.该方法综合考虑了词语的频率,词性以及词语之间的语义关系等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高了
搜索引擎查询日志中的Session(以下简称Session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列.Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作.本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利
本文描述了一种构建问答式检索系统中答案排序模型的新方法.该方法结合了基于密度方法的度量特征和外部知识库,并且引入了基于语法分析方法的语法关键路径的新特征.使用支持向量机回归模型训练评估函数.实验证明.引入了上述语法关键路径特征后的新答案排序模型的排序性能有了明显提高.
信息抽取是自然语言处理的一个重要分支,之前的信息抽取只对语料进行词性标注,语句的信息大量流失引起抽取结果准确率和召回率都比较低,其中语义缺失是根本原因.本文选用教材内容提要作为研究对象.探索了基于中文框架语义(CFN)的文本信息抽取技术.首先对文本进行CFN语义标注,经标注后的文本作为实验语料,再对语料进行向量化预处理构成语义特征向量,然后以文本的语义特征向量作为信息抽取的基础,使用神经网络方法对
多文档文摘是针对信息源由多篇关于同一主题文档组成的文档集合,从信息源中提取重要信息、生成精简版本的过程.本文主要研究了面向特定领域的多文档文摘技术,提出了多文档主题签名技术,句子加权算法以及文摘系统的评测模型.利用这些技术实现了一个面向特定领域的多文档文摘系统,同时还实现了一个基于传统多文档技术的系统用以评测时进行对照.最后本文对文摘系统进行了评测,证明了本文所研究实现的多文档文摘模型的有效性和可
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用.通常所说的关键词实际上有相当一部分是关键的短语,而这部分关键词的提取是十分困难的问题.本文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词短语提取,设计了一种基于分离模型的关键词提取算法.并以该算法为基础.针对关键单词提取和关键词短语提取这两个问题设计了不同的语言学知识特征,提高了提取的准确性.实验表明基于语言学
本文在研究了多种文本分类算法基础上,提出了一种新颖的基于奖励机制的文本分类算法SAM.这种算法借鉴了基于语义知识的概念层次网络(HNC)模型,考虑了词语在不同句类和句子结构中的影响力、词语的类内分布和类间分布对识别特征词的不同影响,提出奖励机制的概念.另外,我们使用了基于字节编码的多模式匹配算法BCAC,使得文本匹配的计算过程简单而高效.最后,我们将该算法与经典文本分类算法如KNN、SVM等作了比
本文提出了一种基于约束惩罚的群体智能文本聚类算法PCSI,该聚类算法不必穷尽搜索样本集,利用粒子群算法的特性在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.该算法约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反分情况进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高
在图像分类和自动标注系统中,多例学习(MIL)是研究的热点.分别在基于EM算法和启发式迭代优化算法的框架下,提出了6种非监督的多例聚类算法,并对web图像进行聚类以分析用户的搜索兴趣.一幅图像含有若干个区域,每个区域可被看作为一个样例,属于同一个图像的区域组成一个包.这样如何理解图像语义内容的问题即可转化为多例学习.在多例学习的经典数据集MUSK和web图像集上的比较实验表明,在不同类别数目下本文