当前位置： > 财经>正文

大数据基础知识信托的基础知识有哪些方面

2023-07-21 04:07:23 互联网未知财经

大数据基础知识

批处理计算（ MapReduce，Spark）：最适合于完成大数据批处理的计算模式是MapReduce，首先，MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想；然后将大量重复的数据记录处理过程总结成Map和Reduce两个抽象的操作；最后MapReduce提供了一个统一的并行计算框架，把并行计算所涉及到的诸多系统层细节都交给计算框架去完成，以此大大简化了程序员进行并行化程序设计的负担。

流式计算（Scribe ，Flume，Storm，S4，SparkStreaming）流式计算是一种高实时性的计算模式，需要对一定时间窗口内应用系统产生的新数据完成实时的计算处理，避免造成数据堆积和丢失。

迭代计算（ HaLoop ，iMapReduce，Twister，Spark）为了克服Hadoop MapReduce难以支持迭代计算的缺陷，工业界和学术界对Hadoop MapReduce进行了不少改进研究。HaLoop把迭代控制放到MapReduce作业执行的框架内部，并通过循环敏感的调度器保证前次迭代的Reduce输出和本次迭代的Map输入数据在同一台物理机上，以减少迭代间的数据传输开销；

交互式计算

图计算（Pregel,PowerGrapg,GraphX）

内存计算（Dremel，Hana，redis）

六、大数据的工作流程

1、采集与预处理

从数据源采集的数据，需要通过数据融合、数据集成、数据整合，生成新的数据集，供后续查询、分析、处理提供统一的数据视图

2、存储管理

分布式文件系统

分布式数据库（NEWSQL、NOSQL）

3、计算模式

包括批处理、交互式处理、流式计算、迭代计算、图计算、内存计算

4、分析与挖掘

5、可视化处理

七、CDH简介

CDH首先是100%开源，基于Apache协议。基于Apache Hadoop和相关projiect开发。可以做批量处理，交互式sql查询和及时查询，基于角色的权限控制。在企业中使用最广的hadoop分发版本。

八、分布式架构设计CAP的工作原理

● 一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本），换句话就是说，任何时刻，所用的应用程序都能访问得到相同的数据。 ● 可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性），换句话就是说，任何时候，任何应用程序都可以读写数据。 ● 分区容错性（P）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A之间做出选择，换句话说，系统可以跨网络分区线性的伸缩和扩展。

聚慧财富

大数据基础知识信托的基础知识有哪些方面

相关文章

最新文章

版权声明

联系我

特别鸣谢

聚慧财富

大数据基础知识 信托的基础知识有哪些方面

相关文章

最新文章

版权声明

联系我

特别鸣谢

大数据基础知识信托的基础知识有哪些方面