中文网页自动分类技术的研究与实现

被引量 : 0次 | 上传用户:ooqqa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识和信息,人们希望能够按照其内容实现对网页的自动分类。Web的迅猛发展为文档自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战,需要在传统的技术基础之上,开展针对Web网页特性的研究工作。本文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)中文网页内“噪音”的自动清除同普通文档相比,网页的设计比较随意,通常都包含大量“噪音”,这些“噪音”影响了网页分类的质量。为此,本文提出了一种自动从中文网页中自动清除“噪音”的方法。该方法通过利用中文网页的结构信息和内容信息,并结合中文网页自动分类技术,实现了自动从中文网页中自动清除“噪音”。实验结果表明,该方法不仅可以有效地从中文网页中自动清除“噪音”,而且,还可以有效地改进中文网页分类器的分类质量。(2)中文网页的特征项提取方法中文网页自动分类系统在解决实际问题时面临的主要问题之一是特征项空间的维数太高。为此,本文提出了一种特征项选取方法。该方法通过利用DF和IDF的意义,在DF文档频率方法的基础上改进而来。实验结果表明,该方法可以有效地改进中文网页分类器的分类质量。
其他文献
威廉二世及其"世界政策"对近代历史产生了不可估量的重大影响。在国际上,他的要求按资本和实力重新瓜分世界,与英国等帝国主义列强争夺世界霸权的斗争愈演愈烈;在国内,他建立
笛福的文学作品中都带有鲜明的"荒岛文学"的特色,其作品的背景都是远离人类的文明环境,作品中的人物都具有很强的独立生存的思想,主人公们都在他们所处的环境中通过自己的劳
随着六西格玛管理在摩托罗拉、通用电气等国际大公司获得巨大成功,近年来,我国企业学习国外经验,开始导入六西格玛管理。文章结合国内企业实际,对六西格玛的含义以及在质量管
<正> 对普通多层、高层住宅小区(以下简称住宅小区)的配电网络需统筹规划、优化方案,使其既能满足住宅及其配套设施的用电负荷要求,又能安全可靠、优质低耗。 1.住宅小区供配
通过对云南企业自主创新能力状况进行深入调查,分析了云南企业自主创新的特点及存在问题,并提出了加快推进云南省企业自主创新能力建设的对策建议.
侦查实践中,指定管辖制度可以保证案件能够得到正确、及时的处理,避免出现犯罪案件无人管辖的不利局面。近年来指定管辖的案件不断增加,司法实践在不断地丰富,但该制度在实施
为了提高分形端点检测的鲁棒性,使其适用于更多类型的噪声,提出了基于短时频域的分形端点检测算法。该算法利用了频域表征信号能量分布的特点,以及语音谐波分量的强周期、规律性
出自《庄子.至乐》的寓言故事"庄子叹骷髅",自产生后经过不断的流传和改编,对后世政治文学领域产生了深远的影响。本文作者在这里将汉末张衡的《骷髅赋》与魏晋时期曹植的《
<正> “慧源中心的老师们,我深深地感谢你们,是你们驱散了我往日心中的愁云,让我塑造出一个全新的自我。”(江苏连云港一位姓范的女青年)。 “我参加了自信心理训练的理论学