本书充分应用信息管理及相关学科知识,根据当前天文海量数据管理中存在的关键问题,重点开展存储与检索、传输、归档3个方面的关键技术研究。最后,以两个射电望远镜的数据管理为例[明安图射电频谱日像仪(MUSER)和平方公里阵列(SKA)射电望远镜],通过数据仿真、实例化测试、性能对比、理论分析来验证本书相关内容的正确性。具体说明如下:①针对海量射电天文观测数据记录的高效存储与检索需求,基于观测数据具有固定的采样间隔和固定数量的连续观测数据记录按序存放在文件中的时序数据特征,本书提出了一种以集合中的补集思想为核心的面向时序数据的数据库系统,即负数据库系统。负数据库系统将文件中存在记录及首尾记录之间丢失记录的元数据信息视为全集,把文件中首尾记录之间丢失记录的元数据信息看成补集,通过补集构建出来的文件逻辑结构关系,能够推导出文件中存在记录的元数据信息。本书给出完整的形式化定义及严格的理论证明。实测结果表明:在记录入库、数据检索及要入库的记录数方面,负数据库系统比需要存储文件中所有存在记录的元数据信息的常用数据管理系统分别快18.8倍、快1.5~6.9倍及减少(N-2)/N×100%(N指文件中的固定记录数)。进而说明,负数据库系统能够在大幅降低存储开销和记录数的同时提供较高的检索性能。②针对海量射电天文观测数据的跨区域高速传输需求,本书提出带状态检测和重传功能的两路异步消息传输模型——高效消息传输模型。该模型是指用两路异步消息传输来分别单向高速传输数据消息和反馈消息,通过超时重传来确保数据消息送达接收方,以及通过实时状态检测来决定是否继续向接收方发送消息。该模型能够克服当前很多远程数据传输技术都使用的出错重传方法存在的需要等待对端反馈消息而降低数据消息传输效率的不足。基于高效消息传输模型实现了一套高效数据传输系统,该系统的性能测试结果表明:在传输文件为数百kB时,该系统获得的平均传输速度比现有系统快将近40倍;同时,在数百MB这个量级和使用较少的并发数时,该系统获得的平均传输速度达到1172 MB/s(该速度基本上实现了10 Gb/s网络带宽的满负载),比现有系统快将近3.4倍。进而说明,实现的高效数据传输系统有效地提高了数据传输性能,缩短了数据传输时间。③针对海量射电天文观测数据在进行高可靠性归档时尽可能降低数据冗余的需求,本书提出基于纠删码的归档模型——低冗余归档模型。该模型是指将纠删码技术集成到带状态检测和重传功能的两路异步消息传输模型中的数据消息接收方而形成的归档模型。该模型能够克服现有系统使用副本技术归档时存在的高数据冗余的不足。基于低冗余归档模型和RS(4,2)算法实现了一套低冗余归档系统,该系统的性能测试结果表明:在相同的实验环境下,该系统获得的平均异地归档速度是现有系统未启用3副本策略时的1.4倍,且只需要增加50%的额外存储开销就能达到基于3副本策略时需要200%的额外存储开销才能达到的数据可靠性;并发数和HWM是该系统调优的关键参数。进而说明,实现的低冗余归档系统具有较高的归档速度,能以较低的数据冗余获得较高的数据可靠性。