数据分析的过程,实际上就是一个不断探索的过程。需要分析的数据越复杂就越是如此,随着分析的不断深入,发现的问题就会越多,甚至会出现与实际情况完全相反的结果,为此就要尝试不同的分析方法,而在分析中使用的数据如果发现有什么问题也要及时地进行修正,上述这些问题即便是经验非常丰富的统计学家也无法避免。实际上为了避免出现错误,越是经验丰富的统计学家,在分析的准备上所花费的时间就越多。
在对参考结果选择各种各样的方法与数据作为突破口的探索分析之中,尝试的次数是非常重要的。因此,那些必须使用特殊工具或者奇妙程序的情况,以及必须长时间等待分析结果的情况都应该尽可能地避免。这样的话,就算最后必须以全部数据为对象进行分析和验证,也可以事先获取一定量的抽样数据,并且通过探索分析找到建立假设的依据。
虽然为了建立假设寻找一定量抽样数据的方法,需要相当专业的统计学知识,但如果只是为了掌握数据概况的话,有上万条数据就够了,这种程度的统计工作仅靠一个熟练应用Excel的人就可以搞定。
当然,对庞大的数据进行高速且符合一定条件的随机抽样调查,以及对最终的分析结果是否准确进行验证的时候,还是需要大数据技术发挥实力。但是,这种速度和准确度究竟有多大的价值呢?这个问题的答案,就要取决于分析结果能够产生多大的价值了。
实际上分析本身并没有价值,如何活用分析的结果,最终得到的价值也是不同的。