大数据必备的技术栈有哪些?
发布时间:2022-11-05 11:16:27 所属栏目:大数据 来源:
导读: 当我们说到大数据时,许多人想到的是Hadoop技术栈。大数据社区已经呈现多样化趋势。
这些技术的共同点是:与具有HDFS,Hive,Zookeeper等的Hadoop相比,它们轻巧且易于使用。其中一些作为托管服务提供,
这些技术的共同点是:与具有HDFS,Hive,Zookeeper等的Hadoop相比,它们轻巧且易于使用。其中一些作为托管服务提供,
|
当我们说到大数据时,许多人想到的是Hadoop技术栈。大数据社区已经呈现多样化趋势。 这些技术的共同点是:与具有HDFS,Hive,Zookeeper等的Hadoop相比,它们轻巧且易于使用。其中一些作为托管服务提供,让你在几分钟之内即可上手。 我们对大数据架构提出了更广泛的观点,而不是围绕特定技术。今天的企业如何构建基础结构来支持存储大数据堆栈,提取,处理和分析大量数据?这是堆栈: 数据层 栈的底层是存储大量原始数据的技术,这些原始数据来自OLTP数据库等传统数据源,以及日志文件、传感器、web分析、文档和媒体档案等数据源。 存储越来越多地发生在云中或虚拟化的本地资源上。企业从遗留存储转向商品化硬件又转向了Amazon S3等托管服务。 数据储存系统 比如: Hadoop HDFS:适合运行在通用硬件(commodity hardware)上的分布式文件系统,有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序 Amazon S3是一个公开的服务,Web 应用程序开发人员可以使用它存储数据资产,包括图片、视频、音乐和文档。 S3 提供一个 RESTful API 以编程方式实现与该服务的交互。 MongoDB是一个成熟的基于文档的开源数据库,用于大规模处理数据,性能得到了验证。然而,由于其有限的分析能力和对事务数据的不支持,一些人质疑它作为一流的数据存储系统的使用。 数据采集和集成层 要创建一个大数据存储,需要将数据从原始数据源导入到数据层。在许多情况下,为了能够进行分析,需要将数据摄取到专门的工具中,例如数据仓库。如果没有数据管道,这将不能实现。你可以利用丰富的大数据集成工具生态系统(包括功能强大的开源集成工具),从数据源提取数据、转换数据并将其加载到选择的目标系统中。 数据处理层 多亏了管道系统,数据才能到达目的地。现在你需要一种可以压缩数据以方便分析的技术。分析师和数据科学家希望对大数据运行SQL查询,其中一些查询需要巨大的计算能力才能执行。数据处理层应该优化数据以促进更有效的分析,并提供一个计算引擎来运行查询。 数据仓库工具最适合大规模地处理数据,而数据湖更适合存储,当需要处理和分析数据时,需要其他技术的帮助。 分析和可视化层 你买了杂货,匆忙地做了一个蛋糕并烘烤它,现在你可以吃它了!数据层收集分析所需的原材料,集成层将它们混合在一起,数据处理层优化、组织数据并执行查询。分析和BI是使用数据来实现数据驱动决策的落地场景。 使用这一层的技术,可以使用许多高级BI工具,运行查询来回答业务部门提出的问题、分割数据、构建仪表盘和创建漂亮的可视化结果。提供对业务有帮助的可视化数据。 APICloud数据云3.0,助力云端开发 大量的模型库及内置模块,方便用户快速实现所需,可靠的BaaS服务,帮助用户避开服务器维护的泥潭。支持服务按需扩容,无须担心流量过载。 (编辑:PHP编程网 - 襄阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐



浙公网安备 33038102330434号