Tag: Big Data | Andrewsy's Space

2025-08-13

The Foundation: Data Engineering for Machine Learning SuccessData Engineering is the foundation of machine learning. Wit

2024-08-16

在SQL查询中，比较操作符 = 通常用于检查两个值是否相等。然而，当涉及到处理缺失值（NULL）时，这种操作符就会面临挑战。为了解决这一问题，SQL 提供了 `IS DISTINCT FROM` 操作符，它用于精确比较两个值是否不同，即使这

2024-08-15

最近在做数据分析，需要挖掘数据随时间变化的信息。所有数据物理存储在AWS S3上，通过AWS Glue Catalog和AWS Athena进行数据查询。AWS Athena支持SQL语言，可以对数据进行分析。在处理时间序列数据或分析行间变

2023-09-05

数据准备是数据分析和机器学习的关键步骤之一。AWS Glue DataBrew 是 Amazon Web Services（AWS）提供的一项强大工具，旨在帮助数据工程师、数据分析师和数据科学家轻松地准备数据以进行分析、报告和机器学习。本文

2020-05-23

在大数据和分析不断发展的领域中，高效管理大型数据集是一个关键挑战。Apache Iceberg 作为一个强大的解决方案，彻底改变了我们处理数据湖的方式。它是一种用于大型分析表的高性能开源的表格式，旨在解决数据湖中的数据管理问题。它提供了一种

2020-05-11

Apache Parquet是一种面向列的存储格式，广泛应用于大数据处理框架中，如Apache Hadoop、Apache Spark等。它最初由Twitter和Cloudera公司合作开发，并于2013年贡献给Apache软件基金会，成为

2019-04-26

Apache Flink 是一个开源的分布式流处理框架，以其高效、可扩展和准确的计算能力在实时数据处理领域中占据重要地位。Flink 不仅支持批处理，还特别强调对流数据处理的优化，具有高吞吐量、低延迟、精确一次性处理语义等特点，适用于大规模