集算器创新大数据计算引擎

QDBase SPL

数据分析引擎

低代码 | 高性能 | 轻量级 | 全功能

本页导航

1. QDBase是什么？
2. 案例简析
3. QDBase凭什么？
4. 技术特性
5. 更多方案
6. 常见问题
7. 优势总结

01QDBase是什么?

QDBase SPL 是什么？

数据计算和处理引擎，可用作分析型数据库和中间件
结构化和半结构化数据计算处理
线下跑批、在线查询
既非SQL体系，也非NoSQL技术
自创SPL语法，简洁高效

SPL: Structured Process Language

QDBase SPL 应对什么痛点？

面向线下跑批、在线查询等数据计算场景

时间窗口不够，半夜跑批跑不完，出错来不及重来；月末年头担惊受怕
出个报表十分钟，业务人员拍桌子；预计算难预测，业务人员不满意
在线用户多一点，时间跨度长一点，数据库就像死了一样
N层嵌套长SQL，存储过程几十K，过几天自己都看不懂
DB/NoSQL/文本/Json/Web几十种数据源，做梦都想跨源混合算
数据量大了冷热数据分库，再想全量（T+0）统计难死人
过度依赖存储过程，应用难移植，架构难调整
数据库里表太多，存储计算资源耗尽，想删不敢删
报表没完没了做不完，人员成本投入何时休
……

QDBase SPL 对标什么？

采用SQL语法的、应用于OLAP场景的数据库

常规数据库：MySQL、PostgreSQL、Oracle、DB2、…
Hadoop上的数据仓库：Hive、Spark SQL、…
新型分布式数据仓库/MPP：…
云数据仓库：Snowflake、…
数据库一体机：ExaData、…

其它数据分析与统计技术

Python, Scala, Java, Kotlin, …

QDBase SPL

低代码
高性能
轻量级
全功能

QDBase SPL 有什么相对SQL的优势？

SQL

SPL

描述能力不足，复杂逻辑要用迂回写法

描述能力强大，自然思维实现复杂逻辑

冗长嵌套代码，难写难调试

开发成本

分步式代码，简洁易写易调试

计算量巨大消耗资源

硬件成本

低复杂度算法减少资源消耗

沉重封闭的计算能力导致臃肿架构

能力不完善迫使技术栈复杂化

运维成本

可集成的开放计算能力获得轻盈架构

独立完成绝大部分任务

QDBase SPL: 开发、硬件、运维成本全面降低X倍

QDBase SPL 有什么相对Java的优势？

Java

SPL

缺少必要计算类库，全部需要从头开发

计算类库丰富，内置众多高性能算法

计算代码复杂，开发困难

开发成本

丰富类库，敏捷开发

高性能算法实现困难繁琐

硬件成本

低复杂度算法减少资源消耗

无法热切换、耦合性高

能力弱往往还需要借助数据库

运维成本

热切换、低耦合

独立完成绝大部分任务

QDBase SPL: 开发、硬件、运维成本全面降低X倍

QDBase SPL 有什么相对Python的优势？

Python

SPL

类库丰富但大数据能力弱

类库丰富且内置大数据能力

一般计算简单，复杂计算难

开发成本

敏捷语法，计算越复杂优势越明显

大数据能力弱，硬件消耗高

硬件成本

内置高性能算法硬件需求低

版本混乱、集成性差

能力弱往往还需要借助数据库

运维成本

版本一致、可集成、架构轻盈

独立完成绝大部分任务

QDBase SPL: 开发、硬件、运维成本全面降低X倍

02案例简析

案例国家天文台星体聚类

问题与难点

11张照片，每张500万天体
天文规则（三角函数计算）聚类
平方级复杂度，500万*500万*10=250万亿次对比

50万天体测试
Python 200行，单线程 6.5天
SQL 100CPU集群 3.8小时

50万天体测试， 2.5分钟
500万天体， 3小时
代码 50行

提速

2000 倍

案例详情：http://c.raqsoft.com.cn/article/1658458664725

案例某保险公司车险跑批

问题与难点

保单表 3500万行，明细表 1.23亿行
关联方式多样需要分别处理

Informix
10天新增保单关联 47分钟
30天新增保单关联 112分钟
代码 1800行

10天新增保单关联 13分钟
30天新增保单关联 17分钟
代码 500行

提速

6.5 倍

案例详情：http://c.raqsoft.com.cn/article/1594119021002

案例某银行对公贷款业务跑批

问题与难点

48个SQL步骤，3300行
历史数据量1.1亿行，每日新增137万行
复杂多表关联

小型机AIX+DB2
运算时间 1.5小时

用时 10分钟，代码 500行

提速

8.5 倍

案例详情：http://c.raqsoft.com.cn/article/1596098387752

案例手机银行多并发帐户查询

问题与难点

用户多，并发访问量大
机构信息经常变更，需要及时关联

Hadoop上商用数仓无法满足高并发要求
换用6台ElasticSearch集群能应对并发，但不能实时关联，数据更新时间长，期间只能停止服务

单机做到ES集群同样并发量
实时关联，机构信息更新零等待

1 台顶 6 台

案例详情：http://c.raqsoft.com.cn/article/1595490353934

案例某银行贷款去重户数指标统计

问题与难点

标签众多，数百个标签任意组合查询
2000万行大表及更大的明细表关联、过滤、汇总计算
每个页面涉及近200指标计算，10并发共2000多指标同时计算

Oracle
无法实时计算，只能预先约定查询要求，提前一天预计算

10并发共2000指标计算不到3秒
无需预先准备，临时选择任意标签组合，实时查询结果

预计算变实时计算

案例详情：http://c.raqsoft.com.cn/article/1593424083742

案例某银行客户画像系统客群交集统计

问题与难点

数据量巨大，上亿客户，数千客群多对多关系，几十个维度
任选若干客群计算交集，中间结果集巨大，无法预计算
10个以上并发请求

Hadoop上著名OLAP Server，100CPU 集群
单任务 2分钟

12CPU单任务4秒
10任务并发可在10秒内完成

提速

250 倍

案例详情：http://c.raqsoft.com.cn/article/1597304345472

某银行BI系统的前置数据库

中央数据仓库承担全行的数据任务，负担过重，只能分配给BI系统5个并发
仅对少量高频数据，DB2也无法胜任实时查询，更无法实现数据路由，需要用户选择数据源

5并发->100并发

QDBase存储少量高频数据，大量低频数据仍存储在数据仓库中，避免重复建设
QDBase承担绝大多数的高频计算任务，剩下少量低频任务自动路由到中央数据仓库

某保险公司 - 库外存储过程

Vertica不支持存储过程，要写异常复杂的嵌套SQL准备数据，经常还要借助Java代码
与MySQL的混合计算时要先将MySQL数据转入，繁琐、不实时、数据库臃肿

用户评价

The best use for us is to pass parameters to the Vertica database.

Each cell becomes a data array that are easy to use, compare and manipulate. It is very logical and you have made it user friendly.

引入QDBase后，不仅能实现Vertica上类存储过程运算，还能直接跨源计算

03QDBase凭什么？

SQL为什么难写：一支股票最长连涨了多少天

SELECT MAX(ContinuousDays)
FROM (SELECT COUNT(*) ContinuousDays
    FROM (SELECT SUM(UpDownTag) OVER ( ORDER BY TradeDate) NoRisingDays
        FROM (SELECT TradeDate,
            	CASE WHEN Price>LAG(price) OVER ( ORDER BY TradeDate)
                	THEN 0 ELSE 1 END UpDownTag
            FROM Stock ) )
    GROUP BY NoRisingDays )

SQL对有序运算支持不足，未直接提供有序分组，只能采用迂回思路，写成四层嵌套的形式

这样的句子不仅很难写出来，写出来想看懂也不容易

面对复杂的业务逻辑，SQL的复杂度会陡增，既难懂又难写

这并非罕见需求，现实中数千行的SQL代码中这种情况比比皆是，严重影响开发和维护效率

SQL为什么跑不快：1亿条数据取前10名

SELECT TOP 10 * FROM Orders ORDER BY Amount DESC

这个查询用了ORDER BY，严格按此逻辑执行，意味要将全量数据做排序，性能将很差

我们知道有不必全排序而完成这个运算的办法，但用SQL无法描述，只能寄希望于数据库的优化引擎

简单情况（比如本句），很多数据库都能优化，但情况再复杂一些，数据库优化引擎就会晕了

下面的分组内取前N名，SQL无法直接描述了，还是要采用迂回思路利用窗口函数写成子查询

面对这种迂回写法，数据库优化引擎也不会优化了，只能去执行排序

SELECT * FROM (
    SELECT *, ROW_NUMBER() OVER (PARTITION BY Area ORDER BY Amount DESC) rn 
    FROM Orders ) 
WHERE rn<=10

SPL的解决方法

	A
1	=Stock.sort(TradeDate).group@i(Price< Price[-1]).max(~.len())

这句SPL和前面SQL的运算逻辑相同，但SPL提供 有序分组运算，描述起来直观简洁

	A
1	=file(“Orders.ctx”).open().cursor()
2	=A1.groups(;top(10;-Amount))	金额在前10名的订单
3	=A1.groups(Area;top(10;-Amount))	每个地区金额在前10名的订单

SPL将TopN视为返回集合的聚合运算，避免全排序；全集和分组时写法类似，不再迂回

SPL为什么更有优势

类比计算 1+2+3+…+100=?

普通人这么算

1+2=3
3+3=6
6+4=10
10+5=15
15+6=21
…

高斯这么算

1+100=101
2+99=101
3+98=101
…
一共有50个101
50*101= 5050

SQL就象只有加法的算术体系，代码冗长，计算低效
SPL则相当于发明了乘法！简化书写，提高性能

SQL的困难源于关系代数，理论问题无法用工程手段解决，虽然经过多年改善，面对复杂需求时依然困难重重
SPL基于完全不同的理论体系：离散数据集，提供更丰富的数据类型和基础运算，拥有更强大的表达能力

延伸阅读：写着简单跑得又快的数据库语言SPL

高性能计算理念

硬件 ?

软件不能让硬件跑得更快，什么软件都不行！

算法 ✓

但可以设计出高效率低复杂度算法，计算量少了自然就快了

开发 ≠

光想出好的算法还不够，还要能开发出来才行

数据库 ✗

传统数据库受限于理论体系，想出好算法也很难实现

Q: 那咋办呢？

A: 往后看！

Q: 哦，原来是这样

A: 对咯，说破了不神奇

Q: 那找程序员去做呗

A: 没有这么容易滴

Q: 那不是只能干瞪眼吗？

A: 嘿嘿，大多数情况就是这样滴

因此高性能计算 = 算法设计 + 算法实现 → 成为制约高性能计算的瓶颈

SQL，NoSQL，NewSQL，Hadoop，都会限制算法实现

玩爆SQL的常见场景

1、复杂有序计算：用户行为转换漏斗分析

计算每个事件（页面浏览、搜索、加购物车、下单、付款等）后的用户流失率
多个事件在指定时间窗口内完成、按指定次序发生才有效，SQL难以实现，更难优化

2、多步骤大数据量跑批

复杂业务需求难以直接用SQL完成，游标读数计算慢，且难以并行，浪费计算资源
存储过程实现要几千行数十步，伴随中间结果反复落地，跑批时间窗口内完不成

3、大数据上多指标计算，反复用关联多

一次完成数百个指标的计算，多次使用明细数据，期间还涉及关联，SQL需要反复遍历
大表关联、条件过滤、分组汇总、去重计数混合运算，伴随高并发实时计算

现实业务中复杂SQL（及存储过程）动辄数百上千行，大量迂回思路才能完成运算，代码复杂、性能低下

电商漏斗运算

with e1 as (
    select uid,1 as step1,min(etime) as t1
    from event
    where etime>= to_date('2021-01-10') and etime < to_date('2021-01-25')
         and eventtype='eventtype1' and …
    group by 1),
e2 as (
    select uid,1 as step2,min(e1.t1) as t1,min(e2.etime) as t2
    from event as e2
    inner join e1 on e2.uid = e1.uid
    where e2.etime>= to_date('2021-01-10') and e2.etime < to_date('2021-01-25') 
         and e2.etime > t1 and e2.etime < t1 + 7
         and eventtype='eventtype2' and …
    group by 1),
e3 as (
    select uid,1 as step3,min(e2.t1) as t1,min(e3.etime) as t3
    from event as e3
    inner join e2 on e3.uid = e2.uid
    where e3.etime>= to_date('2021-01-10') and e3.etime < to_date('2021-01-25')
         and e3.etime > t2 and e3.etime < t1 + 7
         and eventtype='eventtype3' and …
    group by 1)
select
    sum(step1) as step1,
    sum(step2) as step2,
    sum(step3) as step3
from e1
    left join e2 on e1.uid = e2.uid
    left join e3 on e2.uid = e3.uid

SQL缺乏有序计算且集合化不够彻底，需要迂回成多个子查询反复JOIN的写法，编写理解困难而且运算性能非常低下

限于篇幅，只写了三步漏斗，再增加步骤时还要增加子查询

	A
1	=["etype1","etype2","etype3"]
2	=file("event.ctx").open()
3	=A2.cursor(id,etime,etype;etime>=date("2021-01-10") && etime < date("2021-01-25") && A1.contain(etype) && …)
4	=A3.group(uid).(~.sort(etime))
5	=A4.new(~.select@1(etype==A1(1)):first,~:all).select(first)
6	=A5.(A1.(t=if(#==1,t1=first.etime,if(t,all.select@1(etype==A1.~ && etime>t && etime < t1+7).etime, null))))
7	=A6.groups(;count(~(1)):STEP1,count(~(2)):STEP2,count(~(3)):STEP3)

SPL提供有序计算且集合化更彻底，直接按自然思维写出代码，简单且高效。

这段代码能够处理任意步骤数的漏斗，只要改变参数即可

SPL部分高性能计算机制

遍历技术

延迟游标

聚合理解

※有序游标

※遍历复用

预过滤遍历

高效关联

※外键指针化

※外键序号化

有序归并

※附表

※单边分堆连接

高速存储

有序压缩存储

列式存储

※层次序号式定位

索引及缓存

※倍增分段并行

集群计算

抢先式负载均衡

※集群复组表

※集群维表

※内存备胎式容错

外存冗余式容错

※ 这里许多算法和存储方案是SPL的独创发明！

延伸阅读：结构化大数据高性能计算技术

Java为什么也不行？

Java过于原生，缺少必要数据类型和计算库，导致应用程序员写出难或写不出

Calendar cal = Calendar.getInstance();
Map < Object, DoubleSummaryStatistics> c = Orders.collect(Collectors.groupingBy(
                r -> {
                    cal.setTime(r.OrderDate);
                    return cal.get(Calendar.YEAR) + "_" + r.SellerId;
                },
                Collectors.summarizingDouble(r -> {
                    return r.Amount;
                })
        )
);
for(Object sellerid:c.keySet()){
    DoubleSummaryStatistics r =c.get(sellerid);
    String year_sellerid[]=((String)sellerid).split("_");
    System.out.println("group is (year):"+year_sellerid[0]+"\t (sellerid):"+year_sellerid[1]+"\t sum is："+r.getSum());
}

高性能算法难以实现

导致被迫使用好写的低性能算法，经常跑不过SQL

没有通用的高性能存储

只能使用数据库或文本性能低
自己实现高性能存储又面临难以实现的困境

Python为什么还不行？

Python的DataFrame并不擅长处理复杂情况下的结构化数据计算

import pandas as pd
import datetime
import numpy as np
import math
def salary_diff(g):max_age = g['BIRTHDAY'].idxmin()min_age = 
	g['BIRTHDAY'].idxmax()diff = g.loc[max_age]['SALARY']-
	g.loc[min_age]['SALARY']return 
	diffemp['BIRTHDAY']=pd.to_datetime(emp['BIRTHDAY'])salary_diff=
	emp.groupby('DEPT').apply(salary_diff)print(salary_diff)

运算完善度方面仍有不足