一种面向中文敏感网页识别的文本分类方法

来源 :测控技术 | 被引量 : 0次 | 上传用户:honeypan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库。根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类
其他文献
梭子鱼网络推出梭子鱼下一代防火墙F280,其为分支机构和远程办公提供所需强大的下一代防火墙功能,同时满足干兆位以太网吞吐量。
在航空发动机制造业中,对发动机零件中的石墨密封件进行浸渍和固化对提高其工作的耐氧化磨损性能具有非常重要的作用。针对浸渍固化装置,采用NI公司PXI模块化仪器架构和虚拟
患者,男,42岁。2个月前出现阵发性右上腹疼痛不适,查体发现右上腹一拳头大小包块,质中,无压痛,不能推动。CT平扫:右肾上极见一大小约18cm×18cm×20cm的类圆形占位,以脂肪密
在高血压的发生和发展过程中,左心室及左心房的结构和功能都会发生不同程度的变化。准确定量左心房容积对于评估高血压患者左心室舒张功能有重要临床意义[1]。本研究应用实时
通过对变风量空调系统中的定静压控制、变静压控制和总风量控制方法的分析,结合空调末端的特点,选择定静压控制方法控制风管静压。由于设备老化、非线性和外部因素,风机模型具有