Category: Big Data | Andrewsy's Space

2025-11-18

Recently, I have been exploring various data integration tools to streamline our data workflows. One tool that has caugh

2023-11-19

OverviewDuckDB is a seriously powerful database, with a host of unique and amazing features that are straight from the w

2023-10-21

数据存储格式在大数据处理和分析中起着至关重要的作用。Avro、Parquet 和 ORC（优化行列式）是 Hadoop 生态系统中使用的三种流行格式。每种格式都有其优势和独特功能，使其适合特定用例。 Apache ParquetApac

2023-09-05

数据准备是数据分析和机器学习的关键步骤之一。AWS Glue DataBrew 是 Amazon Web Services（AWS）提供的一项强大工具，旨在帮助数据工程师、数据分析师和数据科学家轻松地准备数据以进行分析、报告和机器学习。本文

2020-06-13

数据湖（Data Lake）和数据仓库（Data Warehouse）都是用于存储和管理数据的系统，但它们在设计理念、结构和使用场景上有一些显著的区别和共同点。数据湖（Data Lake）数据湖是一个集中式存储库，它以原始形式摄取和存储大

2020-05-23

在大数据和分析不断发展的领域中，高效管理大型数据集是一个关键挑战。Apache Iceberg 作为一个强大的解决方案，彻底改变了我们处理数据湖的方式。它是一种用于大型分析表的高性能开源的表格式，旨在解决数据湖中的数据管理问题。它提供了一种

2020-05-11

Apache Parquet是一种面向列的存储格式，广泛应用于大数据处理框架中，如Apache Hadoop、Apache Spark等。它最初由Twitter和Cloudera公司合作开发，并于2013年贡献给Apache软件基金会，成为

2019-04-26

Apache Flink 是一个开源的分布式流处理框架，以其高效、可扩展和准确的计算能力在实时数据处理领域中占据重要地位。Flink 不仅支持批处理，还特别强调对流数据处理的优化，具有高吞吐量、低延迟、精确一次性处理语义等特点，适用于大规模