Web数据挖掘中的文本分类研究

被引量 : 0次 | 上传用户:liufengsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的高速发展,各种互联网络上的信息也正以爆炸性的速度飞速增长,如何从这个蕴涵庞大信息量的数据集合中有效抽取有用的模式和感兴趣的信息,正成为当前一个亟需解决的问题,Web数据挖掘技术就是在此背景下产生的。本文分析研究了Web数据挖掘技术中的文本分类技术,重点集中在对中文文本分类技术的研究上,包括文本分类的特征加权、基于社区发现的特征选择和基于图模型的相似性度量三个方面。首先,在分析基尼指数及特征加权基本原理的基础上,提出了一种新的基于基尼指数的特征加权公式,实验表明这种公式有助于提高文本的分类性能;其次,通过对复杂网络中社区结构概念的研究,提出了一种新的基于社区发现的特征选择算法,有效克服了采用传统的特征选择方法遗漏文本上下文语义信息的缺陷,经过实验证明这种算法是有效的;最后,通过对基于图空间模型的文本表示方法的研究,在结构等价分析的基础上,提出了一种改进的文本相似性度量的标准,弥补了向量空间模型不能有效表达文本结构信息的缺陷,实验表明这种文本分类方法是有效的和可行的。
其他文献
<正>半夏白术天麻汤出自于清代著名医家程钟龄的《医学心悟》,该方由半夏、天麻、茯苓、橘红、白术、甘草、牛姜、大枣组成,功用为燥湿化痰、平肝熄风,主治风痰上扰证。方中
浮点运算是高性能计算研究中的一个重要领域。为了满足应用程序的需求,某些微处理器及高档显卡中,设计实现了超高精度浮点运算部件。本文结合中国电子科技集团第五十八研究所
冬学是利用冬季农闲时间,组织农村群众进行学习的一种教育模式。它在我国有着悠久的历史,早在我国宋代就有了关于冬学的记载。抗日战争时期,在敌后根据地所开展的冬学运动,不
杰克·伦敦作为美国及世界文坛上一名颇具影响力的作家,一直以来都是被评论者认作为一名自然主义或现实主义作家。他的代表作《野性的呼唤》、《马丁·伊登》均被认作自然主
恽寿平是清初画坛著名的画家和理论家,他擅花鸟、山水,且被誉为诗、书、画三绝。恽寿平的花鸟画以北宋徐崇嗣没骨法为宗,重视师法造化,极力追求神韵。敷色明丽,用笔工整俊秀,
本文在分析C/C++程序安全检查工具框架的基础上,根据安全检查工具的特殊需求,给出了一种基于分析器自动生成工具ANTLR构造C/C++安全检查工具预处理器的方法,并将此方法应用于
从20世纪80年代我国开始对长期以来形成的计划经济体制进行了全面改革,提出并逐渐构建起了社会主义商品经济体制。20世纪90年代开始提出并开始构建社会主义市场经济体制。这
<正>11月12日,纪念毛泽东同志批示学习推广"枫桥经验"55周年暨习近平总书记指示坚持发展"枫桥经验"15周年大会在浙江绍兴召开。大会强调,要以习近平新时代中国特色社会主义思
35kV电网是农村和城市近郊重要的电压等级电网,雷击跳闸率一直居高不下。由于其线路不需全线架设避雷线,绝缘子片数少(3~4片),三相不换位,杆塔接地电阻降低困难等原因,线路耐
正交频分复用(OFDM)技术因其具有频谱利用率高、抵抗多径干扰能力强等优点,已被应用到有线和无线宽带数据通信的许多领域,也被看作是第四代移动通信的核心技术之一,但符号定