近十多年以来,赞助搜索广告已经发展为通用搜索引擎的主流商业模式,在电商平台也占据重要地位。目前,在赞助搜索广告的研究方面对于关键字的生成、扩展和选择的研究相对较少且存在不足。其原因大致如下:首先,现有的关键字的生成、扩展方法获得的关键字大多数是流行关键字,性价比不高;其次,现有的方法生成的关键字数量较少,难以满足预算充裕的广告主的需求;最后,现有关键字的选择方法只针对单一广告平台,而目前实际工作中广告主往往会同时选择多个平台来投放广告。本书提出赞助搜索广告中的基于层次贝叶斯的关键字生成、扩展和选择策略。本书研究的主要工作特点如下。第一,现有的关键字生成与选择方法所生成的关键字数量多但相关性较低,或者其生成的关键字相关性较高但数量少且概念覆盖范围狭隘。本书提出一种基于层次贝叶斯的关键字生成与选择方法,只需广告主提供少数几个种子关键字即可,本书提出的关键字生成方法是以维基百科网页作为源文本语料库,通过处理维基百科丰富的页面结构和文本内容,构建关键字生成模型,并运用层次贝叶斯进行模型参数估计,最终生成关键字。该方法得到的关键字能在广告主的产品(或服务)及其经营业务的利基市场(nichemarket,指被有市场绝对优势的企业所忽略的细分市场产品)的覆盖率与相关性之间取得平衡。通过与一些基准方法的实验数据进行比较与分析,从相关性、专业性和性价比 3个方面进行评估,证明本书提出的基于层次贝叶斯的关键字生成与选择方法在覆盖性、相关性和专业性等指标上更具优势:所得到的关键字数量更多且概念覆盖范围更广,同时大多数关键字是符合广告主要求的长尾关键字。第二,在关键字生成的基础上,本书利用维基百科网页之间的网络层次结构的链接关系,提出了一种新的关键字扩展策略,将其称为 WIKG,通过发掘维基百科的 categories链接结构,并以此为基础,以迭代的方式构造条目页面的网络图来实现关键字的灵活扩展。本书提出的基于层次贝叶斯的关键字生成方法以维基百科作为源文本语料库,分析了维基百科页面结构,将页面分为 5个主要部分,并且将每一部分的重要性都纳入了参数进行考虑,在每一部分的重要性未知的情况下运用层次贝叶斯进行参数估计,上述内容均属于过往研究中未曾涉足的领域。本书提出的关键字扩展方法,是基于多网页链接层次的网络结构,通过使用改进的扩展激活算法(modified spreadingactivation algorithm,MSA)以迭代的方式构造链接图来确定链接图的边界,从而选择相关性更高的页面。迭代终止条件由一个阈值确定,改变阈值可以在所生成的关键字集合的覆盖范围与种子关键字相关性之间进行调节。把设定的阈值作为终止条件,可以实现所生成的关键字集合的覆盖范围与种子关键字的相关性之间的平衡。实验结果表明,就覆盖率和相关性而言,WIKG均优于基准方法。第三,本书提出的基于非参数层次贝叶斯关键字 CTR(nonparametrichierarchical Bayesian keyword-CTR,NHBKC)模型针对广告主面对多广告平台的实际情况,深入分析了跨平台用户的多维画像特征,通过提取相关标签,并结合细分群体用户的广告点击行为的数据,精确地估算出了每个关键字在目标用户群体中的 CTR综合值。然后在 NHBKC模型估计结果的基础上提出一种由多个部分组成的关键字选择模型,每个组成部分表现关键字选择结果的不同方面,模型引入调和参数并通过调整参数实现品牌推广和利润的平衡,从而满足不同广告主及同一广告主在不同时段对广告目标的不同要求。本书的关键字选择方法为广告主的调整预留了空间,广告主可以方便地根据消费者群体特征的变化来增加、删减或改变用户特征标签,每种特征标签的内部划分也能随时进行调整,通过调整参数实现品牌推广和利润的平衡,方便广告主随时根据市场变化调整关键字选择和广告推广方案。本书提出的方案能满足同一广告主或不同广告主在不同时段对广告目标的不同要求,且该关键字选择方法为广告主的调整预留了空间。