集算器创新大数据计算引擎

【对比Python】保持原序下的相邻记录分组

任务：列出NBA连续夺冠次数最多的球队夺冠信息

Python

1	import pandas as pd
2	import numpy as np
3	pd.set_option('display.max_columns', None)
4	nba_file = 'E:\\txt\\nba.txt'
5	nba_champion = pd.read_csv(nba_file,sep='\t')
6	nba_champion = nba_champion.sort_values(by = 'Year')
7	arr = np.zeros(len(nba_champion))
8	arr[nba_champion['Champion']!=nba_champion['Champion'].shift(1)]=1
9	arr = np.cumsum(arr)
10	nba_champion['flag']=arr
11	nba_champion_g = nba_champion.groupby(by='flag')
12	max_num = nba_champion_g.size().idxmax()
13	max_champion = nba_champion_g.get_group(max_num)
14	print(max_champion)

Python没有相邻条件分组的功能，需要创造一列分组标志。

集算器

	A
1	=connect("mysql")	连接数据库
2	=A1.query("select * from nba order by year")	按照年份排序
3	=A2.group@o(Champion)	相邻不同，另起分组
4	=A3.maxp(~.len())	列出夺冠次数最多的球队夺冠信息

集算器的集合是有序的，可以很方便的把相邻相同记录的归并在一组，不同的另起一组。