数据湖和数据仓库的区别是什么?

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清...

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。


数据组织形式:数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。


用途:数据湖的目的就是数据湖非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。


Schema:数据湖通常在存储数据之后定义schema,使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义schema,这需要你清理和规范化数据,这意味着schema的灵活性要低不少。

  • 发表于 2020-06-28 18:49
  • 阅读 ( 29 )

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
奈学教育
奈学教育

官方

91 篇文章

作家榜 »

  1. NX小编 508 文章
  2. 58沈剑 301 文章
  3. 奈学教育 91 文章
  4. 江帅帅 | 奈学教育 20 文章
  5. 李希沅 | 奈学教育 12 文章
  6. 林淮川 | 奈学教育 8 文章
  7. 邱鹏超 2 文章
  8. nxadmin 2 文章