论文部分内容阅读
随着即时通信软件的普及,网络非规范词汇广泛出现在各种主观性文本中。在传统的文本挖掘中,这种非规范词汇都被视为噪音。事实上,这些非规范词汇经常存在于用户表达个人意愿的句子中。如果我们能够正确识别这类词汇,就能为意见挖掘提供新的意见元素信息。本文的工作把来自网络的非规范汉语词汇分为典型非规范汉语词汇和歧义非规范汉语词汇。对于典型非规范汉语词汇,我们采用了基于序列覆盖算法的模式匹配方法对其进行识别。而对于歧义非规范汉语词汇,我们则采用了基于特征抽取的分类方法进行识别。实验结果表明:上述两种方法对于识别网络非规范汉语词汇是可行和有效的。