Building An Elastic Query Engine on Disaggregated Storage

SnowFlake的一篇论文,目前的架构包含四层:中心化的服务处理端到端的查询、计算层、临时存储层、对象存储层,并讨论了设计临时存储这一层的原因,通过访问数据指标能发现,临时存储的需求变化很大,跟计算层,远端持久存储层都不同。为更好的提高利用率需要计算层跟 临时存储层解耦。调度方面包括:工作窃取、延迟的一致性hash。由于云厂商的计费方式支持到秒级别,原先的预热VM 方式不好使了需要采用共享资源的方式来支持多租户,带来的挑战是,重新设计临时存储层(这层缓存了持久数据和中间数据,扩容会影响其他租户),需要提供私有地址。三个开放问题:临时存和计算层解耦、内存-SSD-远端存储三层机制的有效管理、亚秒计费策略的共享资源架构挑战

阅读全文

What Goes Around Comes Around

Stonebraker的论文,介绍了 9个不同时代的数据模型;层次数据库IMS,以及网络数据库CODASYL,这两者都是逻辑数据、物理数据耦合,之后出现了关系模型,有了数据独立;再往后就是各种对关系模型的补充,如实体-关系模型、关系模型++、语义数据模型、OO模型、对象关系模型、半结构模型等;从中我们可以总结到:查询优化器很有用、技术的争论通常由市场和其他因素决定,简单模型比复制模型更容易实现数据独立、KISS 保持简单是很重要的、除非用户使用中出现很大问题否则他们不会买单、没有编程语言社区的支持想在语言上做改进突破很难、新技术的推广,需要标准化,或者大力度的推广、schema-last 可能只合适小部分场景

阅读全文

LevelDB 公开的接口

LevelDB 的 src/include目录下的公开接口、跨平台的移植(对文件读写、线程、锁做了简单封装方便了跨平台迁移),读写流程的大致流程等

阅读全文