LDA模型下不同分词方法对文本分类性能的影响研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:lvsby2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二
其他文献
期刊
海洋维权巡航执法已成为维护我国海洋主权的常规手段。为避免大风、大浪对船舶造成损失,在维权保障平台建设中,提出了一种基于改进凸包算法的船舶巡航预警快速监测方法。根据每日更新的监测数据,筛选出危险点集,利用改进的凸包算法将所有预警点参与危险区域的构建。实验结果表明,该方法能够高效、精确地标志出船舶未来可能航行到的危险区域。提高了船舶巡航监测在航率,保证巡航的安全和监测任务的有效进行。
研究了事件触发机制下具有固定和切换拓扑结构的多智能体网络的平均一致性问题。为了有效降低多智能体一致性控制协议的更新次数,提出了仅依赖于各智能体及其邻居节点信息的分布式事件触发机制;为了使多智能体网络渐近收敛至初始平均状态,提出了基于事件触发机制的多智能体平均一致性协议;然后,建立了事件触发机制下的闭环系统模型,并分别获得了固定和切换拓扑结构下多智能体网络平均一致收敛的充分条件。仿真表明,基于事件触
针对传统认知无线电网络(CRN)的频谱感知策略没有考虑噪声不确定性问题,提出一种基于噪声功率估计自适应阈值和OR-决策规则的频谱感知策略。将各接收器数据构建成一个数据矩阵,并计算矩阵的协方差矩阵;计算协方差矩阵的特征值,并根据特征值的均值来获得噪声的最大似然估计;根据估计的噪声和能量信号的检验统计量来确定决策阈值;各节点根据决策阈值作出局部决策并上传到融合中心(FC),FC利用OR-决策规则作出最