新兴技术大数据湖

发表于 2021-12-18 09:40:52
数据湖是什么意思?
数据湖是一个易于访问的集中式存储库,用于存储大量结构化和非结构化数据。数据湖具有扁平架构并使用对象存储来存储数据。

数据湖在帮助数据科学家可视化和分析来自原始格式的不同数据的数据方面发挥着重要作用。在数据科学中,当数据的范围及其用途可能尚未完全了解时,这是一个特别重要的考虑因素。

尽管数据湖提供了强大的数据访问优势,但它们需要一个管理组件来帮助用户找到最相关的数据、理解关系并集成异构数据源。流行的数据湖平台包括:

CoreLAKE——一个面向医疗机构的商业、现成 ( COTS ) 数据湖平台。
Qubole - 一个用于机器学习和临时分析的开源数据湖平台。
Azure 数据湖——基于 Hadoop YARN构建并针对云进行了优化。
AWS Lake Formation——允许用户访问描述可用数据集及其适当用途的集中数据目录。
数据湖也可以称为与模式无关或无模式的数据存储库。

数据湖架构是一种存储一切的大数据方法。数据存储在存储库中时不进行分类,并且数据的价值在一开始就不清楚。只有在访问数据时,才会对其进行分类和组织以进行分析。

开发数据湖是为了促进数据的可访问性和重用。Hadoop是一个用于处理和分析大数据的开源框架,可用于筛选存储库中的数据。

帮助中心|标签云|免责声明|申请修改|世界地图|锐阔网

Copyright©GMT+8, 2024-5-19 09:50

京ICP备2021033201号

京公网安备11010502050698号

快速回复 返回顶部 返回列表