论文部分内容阅读
根据美国市场分析机构ABI Research的报告,全球网游市场规模在2015年将超过290亿美金[1]。游戏虚拟货币是该产业链上的核心商品,处于产业链上的实体都亟需了解市场的工具以获取供求统计信息及实时信息。大规模的网游市场伴随着海量网络数据的出现,但基于该特定领域的自然语言处理技术(包括文本信息表示技术、同义词问题处理、特征词选择方法、文本检索技术、文本分类技术、Web信息提取技术等)的研究仍不多见。本文针对上述问题,构造虚拟的专业搜索引擎,以获取网游领域相关的结果集作为初始研究对象,并结合游戏虚拟货币网络交易的特征,用适当的分类方法将初始结果集分类,以获得承载游戏虚拟货币网络交易信息的网页集,再基于该网页集进行游戏虚拟货币网络交易订单的数据采集和分析(包括冗余检查和状态更新),主要内容为:1.建立向量空间模型以处理网页文本,并提出结合领域特征的特征词选择方法和同义词处理方法,来计算和降低向量空间的维度。2.基于多个通用搜索引擎,构造虚拟的专业搜索引擎以获取网游领域相关的网页集,作为初始研究对象。3.以K-近邻文本分类方法为基础,提出一种变换的KNN分类方法,对网页集进行文本分类,该方法基于对训练语料的分析,以余弦计算新文本与已知类别的相似度,不仅实现简单且准确率高,对训练文本的重新训练代价较低,计算的时间和空间复杂度都在训练规模的线性变化空间内。4.采用基于DOM的Web信息提取技术提取订单信息不仅简单高效,而且信息的采集稳定可靠。结合遗传算法的基本思想以检测多次采集的订单信息的状态变化,不仅具有全局搜索优化性能以及高效的并行计算性能,而且具有自组织、自适应、自学习的特征,从而可以确保订单信息采集的高效性和准确性。5.建立游戏虚拟货币数据应用平台,以提供供求统计信息服务及实时信息服务。