《基于潜在语义的个性化搜索关键技术研究》包括以下几个方面:
(1)在计算机研究领域内,从哲学、心理学角度剖析用户搜索行为,并从认知学的角度,提出了基于概率潜在语义动机分析的用户行为模型,高度概括了各种具体搜索行为,从抽象的角度去理解用户的搜索行为。该模型的提出为进一步研究个性化搜索提供了新的思路。
(2)在文档潜在语义空间中,应用Zipf分布与概率潜在语义分析算法相结合的方式进行文档潜在主题提取,改善了文档潜在主题提取的质量。
(3)以狄氏先验的有限混合模型理论为基础,提出了高效无监督的网页聚类算法。可以有效克服一般的文本聚类算法无法有效应对的高维性、稀疏性文本,以及文本数据之间的相似性函数定义困难,聚类质量和效率低等不足,改善了聚类效果,提高了捕获用户兴趣潜在主题需求的能力。
(4)提出了一种新的基于用户潜在语义分析的查询扩展技术。即将通用搜索中查询扩展的技术与用户动机挖掘技术相结合,而开发出的一种新的查询扩展技术,解决了搜索引擎由于通用的性质而缺乏面向用户的个性化的信息处理的能力,从了解用户的语义上的搜索动机以及了解认知与心理相互作用的角度出发,从根本上解决了查询过程中的一词多义及多词同义等问题,在个性化搜索过程中有效的进行语义消歧。
(5)针对面向查询的排名算法的不足提出了面向用户的重排名算法。即在原有网页排序算法的基础上,根据用户的兴趣偏好而提出的一种局部优化排序算法,既符合用户的个性化需求,又不影响搜索结果的查全率,尽可能做到其排序结果与用户语义动机相符合。