设计(论文)的主要内容与要求及其主要技术指标:
本课题主要研究的内容:
音乐检索系统,能够帮助用户在大量的文件中快速找到个性化需求的音乐资源.本课题要求掌握中文分词和倒排索引的基本原理和实现技术,以歌曲名字为检索对象,建立索引。本课题的关键是设计文件动态地改变时,怎样修改相应的索引,在数据量较大时,怎样设计算法,使得检索的响应时间严格控制在用户可接受的范围内。
本课题实现的目标:
(1) 理解并掌握中文分词的相关算法,选择一种较好的算法,实现对歌曲名字的分词。
(2) 理解倒排索引的基本概念,在中文分词的基础上,设计一种算法,建立倒排索引以支持歌曲名的检索。关键在于,对于动态变化的文件,实时地进行索引更新。对于同一关键词的多个结果,设计排序算法进行打分,按照分值从高到低依次显示结果。
(3) 使用Java语言实现音乐检索系统的服务端和客户端,要求客户端检索的准确率达到可实用的水平,要求客户端的检索时间严格控制在用户可接受的范围内。
进 度 安 排
序号 毕业设计(论文)工作进度 日
(起止周数) %
1 查阅资料 第1周 10%
2 分词,索引和排序的算法分析 第2—3周 10%
3 算法设计和编码实现 第4—7周 30%
4 程序调试、测试并进行相关论文的写作 第8—11周 30%
5 课题总结,对论文进行进一步的改进和完善 第12—13周 20%
主要参考文献:
[1] 李刚编著. 疯狂Java讲义. 电子工业出版社,2012
[2] 郑榕增,林世平. 基于Lucene 的中文倒排索引技术的研究[J]。计算机技术与发展,2010年3月,第20 卷 第3 期。
[3] 杨建武,陈晓鸥。基于倒排索引的文本相似搜索[J]。计 算 机 工 程。2005年3月。第31卷第5期。
[4] 吴宝贵。搜索引擎中索引技术的研究与实现[D].西安电子科技大学,情报学硕士论文.2008年1月。
[5] 张旭。一个基于词典和统计的中文分词算法[D]。电子科技大学,计算机应用技术硕士学位论文.2007年1月。
[6] 王冬, 左万利, 赫枫龄,彭涛, 张长利一种增量倒排索引结构的设计与实现[D]。吉林大学学报( 理学版)第45卷第6期,2007年11月。
[7] 黄?**宁 ,赵海。中文分词十年回顾[J]. 中文信息学报,第45卷第6期。2007年5月。
[8] 刘 件 魏 程。中文分词算法研究。微计算机应用.第29卷第8期。2008年8月。
同组设计(论文)者:无