论文部分内容阅读
随着信息技术的飞速发展,互联网的普及,宽带移动通信带来的高速移动无线传输以及“云计算”催生的新的数据存储方式,物联网端到端的传输等新技术变革,均把人类推向了一个信息极大丰富的时代。然而,面对浩如烟海的电子信息,人们却又显得无所适从,如何准确的获得人们所需要的信息是目前亟待解决的问题。信息过滤应运而生,而特征项权重计算方法是信息过滤的基础,也是信息过滤效果前提保障。本文重点研究了特征项粒度的选取、特征选择方法,特征权重计算方法以及特征项之间的组织方式等相关内容,有一定理论价值及实际意义。主要研究内容包括:1.对特征特征选择与权重计算的概念加以界定总结已有特征选择函数与权重评价函数计算方法,并对二者进行区分与对比,给予概念及意义上的界定,为后继研究者提供理论基础。2.改进了传统的信息增益算法重点分析了传统的信息增益算法的优点与不足,并针对传统的信息增益算法难以处理不平衡语料这一缺陷,利用特征项分布信息改进了传统的信息增益算法,并利用类内离散度和类间离散度作为判断条件,把改进的信息增益算法与传统的信息增益算法相结合,这样不克服了传统信息增益算法难以处理不平衡语料的缺陷,并且保留了传统信息增益算法的优点。最后,通过实验证明这一方法的可行性。3.在VSM中引入了句法规则的思想,增加了特征项的语义描述性目前,词法系统不的完善是造成特征项语义缺失的主要原因,也是制约中文信息处理发展的主要瓶颈。本文通过对文本标引及向量空间模型中特征项粒度的选取等领域认真研究。针对当前词法系统不足,把句法规则引入到VSM中,利用句法规则构造词法合并规则,从而识别出文本中的基本短语,并利用这些基本短语代替VSM中的词,以扩充特征项的语义描述性。并通过实验证明这一方法的有效性。4.构建了特征关系树,增强了VSM中特征项之间的联系由于VSM中各特征项之间相互独立,各特征项之间相互干扰,以至于产生搭配歧义和分类噪声,因此,本文对VSM中特征项之间的关系重新组织梳理,引入了树状模型,构造了VSM特征关系树,并把这种思想引入到不良信息情感分类中,取得了良好效果。5.构造了统计与规则的权重计算方法针对现有权重计算方法仅仅利用频次衡量特征项对文档的贡献程度,容易造成特征曲线平坦难以体现项的区分度的现象,本文综合考虑了特征项的分布、位置、频次及语法角色等信息,构造了特征项权重评价函数。并通过文档主题句提取、文本分类等实验综合评价本算法。实验证明,基于统计的联合权重计算方法不仅增加了项的区分度,而且克服了特征项曲线平坦的现象,而且本算法较基于的频次的计算方法有较强的稳定性及较早的收敛性。6.设计并实现了基于统计与规则的网络信息过滤系统本着先进性、可靠性、易用性的设计目标,从用户角度出发,设计并实现了基于统计与规则的网络信息过滤系统,该系统能够自动对流经本机的信息进行分类过滤,并依据特定用户的设定,自动进行Web页的URL过滤、关键词过滤以及内容过滤等,其中内容过滤主要依据本文改进的特征选择算法进行特征选择,降低向量空间的维度,并利用本文提出的基于统计与规则的文本表示模型表示文档向量空间,大大提高了信息过滤的精度。