数据蒋堂 目录下的全部文章
前半有序的大数据排序

前半有序的大数据排序

发布时间:2018-11-13 分类:数据蒋堂 Tag:,,
最近碰到这么一个案例,情况可以简化总结成这样:数据库中有表T,其中有两个重要的字段a和b,a是一个时间戳,精确到秒;b是用户号;其它字段用来表示用户b在时刻a发生的事件属性。 现在任务是:把数据按a,…
如何将数据热导出到文件

如何将数据热导出到文件

发布时间:2018-11-06 分类:数据蒋堂 Tag:,
随着时间推移,数据库中数据量会越来越大,如果把查询分析都挂到数据库上,有可能会影响到生产系统的正常运行。所以,一般都会将生产数据库中不再变动的数据定期移出到另一个分析数据库中,由分析数据库来承担查询分…
时序数据从分表到分库

时序数据从分表到分库

发布时间:2018-10-30 分类:数据蒋堂 Tag:,,,,
这里的时序数据泛指一切随时间推移而不断增长的数据,比如通话记录、银行交易记录等。 对于数据库来讲,时序数据并没有什么特殊性,可以和普通数据一样放在数据表中。不过,因为不断增长,积累时间较长后,这种数据…
BI系统的前置计算

BI系统的前置计算

发布时间:2018-10-23 分类:数据蒋堂 Tag:,
某机构上了一套分布式数据仓库,历史数据逐步装进了仓库,然后,基于数据仓库构建了BI系统(主要是多维分析)。刚开始,一切都顺利,但随着时间推移,基于中央数据仓库的应用越来越多,几年下来积累了数十个应用。…
性能优化是个手艺活

性能优化是个手艺活

发布时间:2018-10-18 分类:数据蒋堂 Tag:,,
大数据的技术本质就是高性能,性能优化也是程序员们的永恒话题。 这里说的性能优化,主要是指在程序员的努力下能达到某种性能提升效果的过程。只要简单换台机器就能加速的事情,业主方要么早就做过了,要么就是条件…
数据分布背后的逻辑

数据分布背后的逻辑

发布时间:2018-10-09 分类:数据蒋堂 Tag:,,
在分布式数据库及大数据平台中,数据如何分布到多台机器中是个很关键的问题。因为很多运算是数据密集型的,如果数据分布做得不好,就会导致网络传输量变大,从而影响性能。 一般来讲,分布式数据库会提供两种分布策…
为什么我们需要C程序员

为什么我们需要C程序员

发布时间:2018-08-28 分类:数据蒋堂 Tag:,
再说一个招聘的话题。 大家可能知道,润乾的软件产品主体都是Java写的,几乎没有别的语言。但是,我们在招聘算法程序员时,从来都要求C语言背景,会不会Java反而无所谓,而如果没有C语言功底则免谈。事实…
从一道招聘考题谈起

从一道招聘考题谈起

发布时间:2018-08-28 分类:数据蒋堂 Tag:,
润乾研发部在招聘时有一个笔试题: 1/2,1/5,1/20,1/64,1/125都可以写成有限小数,而1/3,1/7,1/15,1/24则必须写成无限循环小数。请指出能写成有限小数的分数具有什么样的特…
报表工具的SQL植入风险

报表工具的SQL植入风险

发布时间:2018-08-14 分类:数据蒋堂 Tag:,
所有的报表工具都会提供参数功能,主要都是用于根据用户输入的查询条件来选取合适的数据。比如希望查询指定时间段的数据,就可以把时间段作为参数传递给报表,报表在从数据库中取数时将这些参数应用到取数SQL的W…
内置的数据无法实现高性能

内置的数据无法实现高性能

发布时间:2018-08-07 分类:数据蒋堂 Tag:
这里说的“内”, 是指数据库之内。 当数据量变大时,我们常常会感到数据库的性能下降明显,但是,无论怎样优化SQL(存储过程)都仍然与根据数据量和运算复杂度计算出来的理论性能相差甚远。这主要由如下几方面…