2023-11-19 A fast in-process analytical database - DuckDB DataBaseDuckDBParquetPython Big Data OverviewDuckDB is a seriously powerful database, with a host of unique and amazing features that are straight from the w
2023-10-21 大数据存储格式之 Parquet, ORC, Avro Apache AvroApache ORCApache Parquet Big Data 数据存储格式在大数据处理和分析中起着至关重要的作用。Avro、Parquet 和 ORC(优化行列式)是 Hadoop 生态系统中使用的三种流行格式。每种格式都有其优势和独特功能,使其适合特定用例。 Apache ParquetApac
2023-09-05 AWS Glue DataBrew - 简化数据准备的利器 AWSBig DataCloud Big Data 数据准备是数据分析和机器学习的关键步骤之一。AWS Glue DataBrew 是 Amazon Web Services(AWS)提供的一项强大工具,旨在帮助数据工程师、数据分析师和数据科学家轻松地准备数据以进行分析、报告和机器学习。本文
2020-06-13 数据湖(Data Lake)vs 数据仓库(Data Warehouse) Data LakeData Warehouse Big Data 数据湖(Data Lake)和数据仓库(Data Warehouse)都是用于存储和管理数据的系统,但它们在设计理念、结构和使用场景上有一些显著的区别和共同点。 数据湖(Data Lake)数据湖是一个集中式存储库,它以原始形式摄取和存储大
2020-05-23 Apache Iceberg 分析介绍以及使用场景 Big DataIcebergSpark Big Data 在大数据和分析不断发展的领域中,高效管理大型数据集是一个关键挑战。Apache Iceberg 作为一个强大的解决方案,彻底改变了我们处理数据湖的方式。它是一种用于大型分析表的高性能开源的表格式,旨在解决数据湖中的数据管理问题。它提供了一种
2020-05-11 Apache Parquet 高效的数据存储格式 Big DataParquet Big Data Apache Parquet是一种面向列的存储格式,广泛应用于大数据处理框架中,如Apache Hadoop、Apache Spark等。它最初由Twitter和Cloudera公司合作开发,并于2013年贡献给Apache软件基金会,成为
2019-04-26 Apache Flink 的架构原理、关键特性与应用场景深度解析 Big DataFlink Big Data Apache Flink 是一个开源的分布式流处理框架,以其高效、可扩展和准确的计算能力在实时数据处理领域中占据重要地位。Flink 不仅支持批处理,还特别强调对流数据处理的优化,具有高吞吐量、低延迟、精确一次性处理语义等特点,适用于大规模