/images/avatar.jpg
杂七杂八的,随手记录。

Towards a New File Format for Big Data - SIMD-Friendly Composable Compression

本文为摘录(或转载),侵删,原文为: attachments/pdf/a/Towards a New File Format for Big Data - SIMD-Friendly Composable Compression (2020-AzimAfroozeh).pdf

1 Introduction

2 Related Work

2.1 Storage Layouts

2.1.1 NSM

传统上,在数据库系统中,表格数据通常按照磁盘页的起始行逐行存储。这种存储方式被称为 N-ary 存储模型(NSM)。如图 2.1 所示,如果元组大小是可变的,NSM 可能会在页面末尾使用偏移表来定位每个元组的起始位置。此外,每个元组都以元组头(RH)开头,包含有关元组的信息。RH 以空位图开头,用于支持空值;以偏移量开头,用于支持可变属性的变量长度值;以及其他实现特定的细节,以使布局更加灵活。

X-Engine: An optimized storage engine for TP

本文为摘录(或转载),侵删,原文为: attachments/pdf/7/sigmod-xengine.pdf

1 Abstract

在线电商交易具有三个显著特点:

  1. 随着主要销售和促销活动的开始,每秒交易数量急剧增加;
  2. 大量的热门记录很容易压垮系统缓冲区;
  3. 由于不同类别的促销在不同的短时间内可用,不同记录的“温度”(热、温、冷)会快速转换。

为了解决这些挑战,阿里巴巴引入了一种名为 X-Engine 的新的存储引擎,它是 POLARDB 的一种优化的写入存储引擎。它采用分层存储体系结构和 LSM 树(日志结构合并树)来利用硬件加速,例如 FPGA 加速压实,并提供一系列优化,包括事务中的异步写入、多阶段管道和压实期间的增量缓存替换。评估结果表明,X-Engine 在此类事务负载下表现出更高的性能。

The Design and Implementation of Modern Column-Oriented Database Systems

Greenplum 资源管理——Resource Group使用和实现分析

Linux Process States

本文为摘录(或转载),侵删,原文为: https://www.baeldung.com/linux/process-states

1 The Linux Process States

  • Running or Runnable (R)
  • Uninterruptible Sleep (D)
  • Interruptable Sleep (S)
  • Stopped (T)
  • Zombie (Z)

状态机如下:

A Learned Query Rewrite System using Monte Carlo Tree Search

本文为摘录(或转载),侵删,原文为: attachments/pdf/7/p46-li.pdf

  • 查询重写使用启发式算法来实现,有两个限制

    • 规则的应用顺序严重影响查询性能,但
      • 可能的重写顺序随查询涉及到的算子指数增长
      • 受限于搜索空间大小限制,很难找到最佳的顺序
    • 针对不同的查询,不同的重写规则的收益也不同
      • 当前的方法,只能应用于单个计划,而不能有效的估计查询重写的收益
  • 提出了基于策略树树的查询重写框架

QueryFormer: A Tree Transformer Model for Query Plan Representation

Table of Contents

本文为摘录(或转载),侵删,原文为: attachments/pdf/0/p1658-zhao.pdf

QueryFormer:

  • learning-based query planer representation model
  • with tree-structured Transformer architecture

-integrate histograms from database into query plan encoding

1 INTRODUCTION

  • Physical Query Plan As DAG (Directed Acyclic Graph)

    Figure 1: Example query and query plan

    Figure 1: Example query and query plan

    • node 表示操作
    • edge 表示方向
    • 子节点先执行,执行结果给父节点作为输入
  • Physical Query Plan 作为机器学习的输入,用以数据库优化

Adaptive Range Filters for Cold Data: Avoiding Trips to Siberia

本文为摘录(或转载),侵删,原文为: attachments/pdf/f/p1714-kossmann.pdf

对目前的架构来讲,和 粗糙索引 作用重叠。。

1 ABSTRACT

  • ARF: Adaptive Range Filter, 自适应范围过滤器
  • ARF is for Range queries, while
  • BloomFilter is for Point queries

2 INTRODUCTION

3 APPLICATION EXAMPLE

3.1 Project Siberia

  • Siberia 是 Hekaton 项目用于管理冷数据的一个项目
    • Hekaton 则是 SQL Server 套件中的内存数据库
  • 查询处理