如何利用大数据进行预测?
大数据的“4V”特征表明大数据不仅仅是数据海量,对于大数据的分析将更加复杂、更追求速度、更注重实效。数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控过程,可能有用的数据仅有一两秒。数据科学家必须借助预测分析软件来评估他们的分析模型和规则,预测分析软件通过整合统计分析和机器学习算法发挥作用。
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方而,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
0