基于统计分布与集合论的文本分类方法

来源 :北京理工大学学报 | 被引量 : 0次 | 上传用户：redkind

【摘要】

：

指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷，进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点，给出了计算特征词权重的新方

【作者】

：

邓擘樊孝忠杨立公

【机构】

：

北京理工大学计算机科学技术学院

【出处】

：

北京理工大学学报

【发表日期】

：

2006年7期

【关键词】

：

文本分类特征词词频文本频统计分布 document classification term term frequency document freque

【基金项目】

：

教育部高等学校博士学科点专项科研基金资助课题（20050007023）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

指出基于TfIdf的常用文本特征提取方法在文本分类问题中的缺陷，进而提出使用特征词的分布状态、词频和文本频三者相结合的方式提取文本特征的观点，给出了计算特征词权重的新方法，提出了新的文本分类方法．试验表明，该方法能够最大限度保留文本的特征，并且可有效避免向量空间模型中的维数灾难问题，能应用于大规模文本分类．

其他文献

电子文献的法律证据价值

文章就迅速增长的电子文献的法律证据的可采性、证明力进行了探讨，结合文献工作的性质，提出了其作为证据的法律价值。

期刊

电子文献法律证据文献工作信息安全证明力法律价值

2010年“中食展”发展快速

由法国爱博展览集团和（中国）商业发展中心共同主办的第十一届中国国际食品和饮料展览会（SIAL CHINA 2010）将于2010年5月19日至21日在上海新国际博览中心隆重展出。

期刊

上海新国际博览中心商业发展展览会中国

综合传动铸铁密封环磨损模糊可靠性分析与计算

为了提高综合传动密封装置的可靠性和耐久性,在对密封环磨损机理和失效特性研究分析的基础上,应用模糊理论建立综合传动铸铁密封环的模糊可靠性模型,推导出模糊可靠度计算的

期刊

综合传动密封环磨损模糊可靠性隶属函数composite transmission sealing ring wear abrasion fuzzy r

我国农村卫生的重要学术基地——纪念《中国农村卫生事业管理》杂志创刊20周年

1历史回顾安徽医科大学是我国农村卫生的重要学术基地,它是建国以来一大批专家教授辛勤耕耘的成果.我们应该爱惜它,保护它,促进其成长,要在20世纪后半叶取得丰硕成果基础上,

期刊

农村卫生《中国农村卫生事业管理》杂志创刊20周年中国卫生体制改革

攻顶装甲目标的交流毫米波引信目标识别及定位

对交流毫米波引信的目标识别与定位方法进行研究．分析了毫米波引信探测金属目标的机理；在对装甲目标进行试验测试的基础上，研究了坦克装甲目标与干扰的毫米波信号差异；根据目标特

期刊

毫米波引信目标识别目标定位目标特性millimeter wave fuze target identification target orientati

校本课程开发的意蕴解读

校本课程作为全面推进素质教育的重要方式之一,在我国基础教育课程体系中具有重要的地位,从本质上说,校本课程的开发其实是一种基于地方特色地域文化的开发,无论是将课程作为

期刊

校本课程开发意蕴解读

光栅刻划机导向导轨支撑结构刚度优化设计

运用有限元手段对刀桥导轨的刚度进行了有限元分析,得到了刚度方面的分析结果和模态分析结果,并在不同位置加40N载荷进行实验验证。在此基础上,对原有的结构进行一体式结构优

期刊

光栅刻划机刚度有限元分析模态grating ruling systemstiffnessfinite element analysismodal

欧李果酒的酿造工艺研究

以欧李为原料，酿造欧李果酒，研究了欧李果酒的酿造工艺包括发酵、调配与澄清等3个参数。实验结果表明：发酵时首先调整控制初始糖度18mg／L，接种酵母量0．6％，然后在发酵温度25℃、pH3．5的

期刊

欧李果酒酿造Prunus humilisfruit wine brewing

不可遏制的经济全球化内在动力

<正>经济全球化是不以人们意志为转移的、不可逆转的、持续演进的客观进程。正如习近平主席指出:"经济全球化是社会生产力发展的客观要求和科技进步的必然结果。"经济全球化

会议

抵押预告登记和预查封登记的冲突与协调

随着我国房地产市场的快速发展,房屋成为了人们日常交易中最常涉及的不动产,而在很多经济纠纷案中常会出现抵押预告登记与预算查封登记.本文就两种登记方式的冲突关系进行分

期刊

登记工作冲突协调

基于统计分布与集合论的文本分类方法

与本文相关的学术论文