Compaction in Apache Iceberg

2024年2月29日

| 大数据

压缩，可以将多个小文件合并为大文件提高读性能，几种压缩策略：binpack（简单合并）、sort、z-order（适合多列查询），Expire Snapshots 可以删除过期的数据文件，还提供了参数可以自动删除manifest 文件、保留多少manifest文件，以及清除orphan 文件

阅读全文

The Life of a Read/Write Query for Apache Iceberg Tables

2024年2月26日

| 大数据

介绍了存储的结构，元数据层包括：manifest files、manifest list, metadata files，catalog指向最新的 metadata files；每一层都可以做裁减，包括数据层，介绍了读取、time travel过程，是自上往下的读取和裁减过程；写入过程：插入、删除、merge过程，写过程是自下而上的，通过切换catalog指向，利用OCC控制并发，实现ACID

阅读全文

Data engineering at Meta

2024年2月2日

| 行业观察

High-Level Overview of the internal tech stack

阅读全文

Data Ingestion: Architectural Patterns

2024年1月15日

| 大数据

data ingestion 的几种架构：Unified Data Repository、Data Virtualization、ETL、ELT、Stream Processing

阅读全文

Hive MetaStore的实现和优化

2024年1月14日

| 大数据

Hive MetaStore的实现原理，Hive Thrift 客户端和服务端的实现，MetaCat对 HMS 的兼容以及优化，Spark调用 HMS 的逻辑

阅读全文

Analyzing and Comparing Lakehouse Storage Systems

2024年1月10日

| 大数据

讨论了 LakeHouse 系统设计的难点，在不可变高延迟的对象存储之上，增加事务特性，三大系统都使用了OCC做隔离，事务实现都用了MVCC，源数据库管理delta和hudi用了表格式，iceberg用了层次存储(单节点处理)，数据更新三者都支持CoW(适合读多写少场景)，hudi和iceberg支持MoR(适合写多的场景)

阅读全文

Compaction in Apache Iceberg

The Life of a Read/Write Query for Apache Iceberg Tables

Data engineering at Meta

Data Ingestion: Architectural Patterns

Hive MetaStore的实现和优化

Analyzing and Comparing Lakehouse Storage Systems

最近文章

分类

归档

标签

RSS