一种面向中文敏感网页识别的文本分类方法

来源 :测控技术 | 被引量 : 0次 | 上传用户：honeypan

【摘要】

：

提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判

【作者】

：

陈欣张菁李晓光卓力

【机构】

：

北京工业大学信号与信息处理研究室

【出处】

：

测控技术

【发表日期】

：

2011年5期

【关键词】

：

中文敏感网页识别新词识别停用词表建立 CHI统计朴素贝叶斯分类器 Chinese pornographic web recognition new wor

【基金项目】

：

国家自然科学基金资助项目（60772069 61003289）, 863计划资助项目（2009AA12Z111）, 北京市自然科学基金资助项目（4102008）, 人力资源与社会保障部留学归国人员科技活动优秀类资助, 教育部留学归国人员科研启动基金项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分。为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400维的特征词库。根据开方拟合统计量特征选择方法与朴素贝叶斯分类器的特点,加入待分类网页文本中所含特征项数目与特征集维数的比值以及特征项数目与文本所含词汇数目的比值两个影响因子,对朴素贝叶斯分类

其他文献

梭子鱼下一代防火墙 F280

梭子鱼网络推出梭子鱼下一代防火墙F280，其为分支机构和远程办公提供所需强大的下一代防火墙功能，同时满足干兆位以太网吞吐量。

期刊

防火墙功能梭子鱼远程办公分支机构吞吐量以太网网络

基于LabVIEW的发动机零件浸渍固化控制系统设计

在航空发动机制造业中,对发动机零件中的石墨密封件进行浸渍和固化对提高其工作的耐氧化磨损性能具有非常重要的作用。针对浸渍固化装置,采用NI公司PXI模块化仪器架构和虚拟

期刊

虚拟仪器LABVIEW数据采集自动化控制virtual instrument LabVIEW data acquisition automation c

肾脏囊性成熟性畸胎瘤1例

患者，男，42岁。2个月前出现阵发性右上腹疼痛不适，查体发现右上腹一拳头大小包块，质中，无压痛，不能推动。CT平扫：右肾上极见一大小约18cm×18cm×20cm的类圆形占位，以脂肪密

期刊

肾脏畸胎瘤体层摄影术X线计算机Kidney Teratoma Tomography X-ray computed

实时三维超声心动图左心房容积成像评价高血压患者左心室舒张功能

在高血压的发生和发展过程中,左心室及左心房的结构和功能都会发生不同程度的变化。准确定量左心房容积对于评估高血压患者左心室舒张功能有重要临床意义[1]。本研究应用实时

期刊

超声心动描记术高血压左心房容积Echocardiography Hypertension Left atrial volume

基于风机模型不确定性的鲁棒控制

通过对变风量空调系统中的定静压控制、变静压控制和总风量控制方法的分析，结合空调末端的特点，选择定静压控制方法控制风管静压。由于设备老化、非线性和外部因素，风机模型具有

期刊

变风量空调系统定静压控制风机模型不确定性鲁棒性variable air volume air conditioning system constant

一种面向中文敏感网页识别的文本分类方法

其他学术论文