《反垃圾邮件信息过滤技术研究》从技术的角度出发,在全面、系统学习和总结了国内外反垃圾邮件领域的新成果的基础上,深入、全面地研究了反垃圾邮件信息过滤技术,取得了以下若干创新和成果。《反垃圾邮件信息过滤技术研究》的主要创新和贡献包括以下几个方面。1.归纳总结了当前垃圾邮件采用的新的抗过滤的方法和手段。垃圾邮件发送者为了让垃圾邮件逃避各种垃圾邮件过滤,不断变化更新欺骗过滤器的方法和手段,目前简单的过滤方法已经无法有效地过滤垃圾邮件。《反垃圾邮件信息过滤技术研究》在学习了国内外相关资料和研究了大量近期垃圾邮件样本后,归纳总结了当前垃圾邮件发送者常采用的欺骗手段和方法,及其它们的特点,以便有的放矢,更有效地反垃圾邮件。2.提出了一种基于内容的MNNB垃圾邮件过滤算法。MNNB算法应用Markov链改善了NaIve Bayes垃圾邮件过滤算法中的词条之间相互独立的缺陷,并假设句与句之间是独立的,来简化算法的计算量。实验显示MNNB算法提高了Nalve Bayes算法的准确率和查全率,并且由于该算法不需要分词,对过滤不同语言的垃圾邮件具有更好的适应性。3.提出了一种基于内容的LVQ神经网络过滤算法。LVQ神经网络算法是先把邮件细分成具体的类别,然后再根据用户的定义,把具体的类别规约成垃圾类邮件和正常类邮件。LVQ神经网络算法克服了垃圾邮件具体类别宽泛、特征离散的问题,提高了垃圾邮件识别的准确度,并且该算法可根据用户对垃圾邮件范围的不同定义,来划分垃圾邮件和正常邮件。4.提出了一种基于特征的近似垃圾邮件检测算法-ASD算法。针对网络中存在大量重复、近似的垃圾邮件,利用ASD算法生成的特征,高效地查询收到邮件。ASD算法以句为单位,作为SHA1函数的参数,计算其哈希值,然后将获得的哈希值排序,生成每个已知垃圾邮件的特征。比较新邮件的特征与已知垃圾邮件特征的近似度,来判断该邮件是否为垃圾邮件。5.构建了一个基于URL垃圾邮件快速过滤的模块。当前相当一部分垃圾邮件简单地给出某“黑网页”的URL地址,起到间接宣传广告的作用,而能有效地逃过现有的垃圾邮件过滤方法的过滤。针对此类垃圾邮件,采用基于URL的过滤,能有效过滤此类垃圾邮件,是其他垃圾邮件过滤算法的有效补充。6.构建了一个基于邮件服务器端的、多层次的垃圾邮件过滤系统——Spam Sweeper。Spam Sweeper系统集合了DNS反向查询、公有、私有黑白名单、询问/响应、基于URL的过滤、基于特征的ASD算法、基于内容的LVQ神经网络算法和MNNB算法多种方法,各种方法之间相互协作、互相补充,形成一个准确、快速、高效、易管理和满足不同个性化要求的反垃圾邮件过滤系统。