[关键词] 搜索引擎;Nutch;中文分词;索引;检索;
1.4 本文研究的主要内容
本文围绕基于Web搜索引擎技术,研究并设计了一个灵活、可配置、具有良好扩展性的全文搜索引擎系统。具有如下几个方面的内容:
(1)通过对搜索引擎系统相关技术分析研究,对搜索引擎技术的体系结构及工作流程进行了详细讨论。重点研究分析了智能化中文搜索引擎的核心技术包括中文分词技术、检索技术及用户接口技术等,为下一步的研究奠定了理论基础。
(2)通过对现有中文分词技术及Nutch软件包中的词法分析器的研究分析,在正向最大匹配算法的基础上设计并实现了一个中文词法分析器,并将该中文词法分析器无缝的结合到所开发的搜索引擎系统中,通过与Nutch原有的词法分析器对比分析,本课题设计的词法分析器改善了搜索引擎系统的查询准确度。
(3)针对信息检索模块中的排序算法做了优化,本文从链接分析和网页相关性两个方面对排序算法进行了深入研究,在此基础上提出了一种改进方案,将PageRank算法和原有的基于内容的相关度排序算法结合,克服了PageRank算法等一些算法和查询关键字无关的缺陷,将页面重要性和网页的相关性相结合,更加准确的模拟了用户浏览页面的习惯。
(4)针对用户接口模块的优化问题进行了深入研究,对用户搜索界面进行了进一步的修改,改善了搜索引擎系统的整体性能和用户检索的准确度。
目 录
1 背景与意义 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.3 研究的目的和意义 2
1.4 本文研究的主要内容 2
2 需求分析 3
2.1 可行性分析 3
2.2 搜索引擎工作原理 4
2.3 Nutch相关技术与机制分析 6
2.3.1 Nutch技术基础 6
2.3.2 Nutch体系结构 6
2.3.3 Nutch工作流程 7
2.4 基于Nutch的搜索引擎的需求分析 8
2.4.1 系统总体目标 8
2.4.2 系统功能目标 8
2.4.3 系统结构分析 9
2.4.4 系统性能要求 9
3 系统设计 10
3.1 系统总体架构设计 10
3.2 数据获取 11
3.3 信息索引 13
3.3.1 索引基本结构 13
3.3.2 本系统的索引 14
3.4 查询处理 15
3.4.1 信息查询原理 15
3.4.2 本系统的查询 16
3.4.3 中文分词技术 16
3.5 结果排序 18
3.5.1 Nutch排序机制研究 18
3.5.2 排序修改方法设计 19
4 编码与实现 20
4.1 开发环境 20
4.2 数据抓取与搜索测试 21
4.2.1 运行Crawl命令抓取网站内容 21
4.2.2 使用Tomcat进行搜索测试 23
4.3 系统关键技术及实现 23
4.3.1 中文分词技术实现 23
4.3.2 排序修改方法实现 25
4.3.3 用户界面模块 26
5 系统测试与运行 28
5.1 概述 28
5.2 测试方法 28
5.3 测试技术 28
5.4 测试用例设计 29
6 总结与展望 29
6.1 总结 29
6.2 展望 30
结束语 31
参考文献 32
附录 33
致谢 36