Учебник Pandas

Операции SQL Pandas Утраченные данные Pandas

GroupBy Pandas

Пример операции groupby в Pandas

Любая операция groupby выполняется над исходным объектом следующим образом:

Разделение объекта Применение функции Объединение результатов

Во многих случаях мы делим данные на несколько групп и применяем к каждой подгруппе некоторые функции. В функции Apply мы можем выполнять следующие действия-

Агрегация − Вычисление обобщающих статистик Преобразование − Группировка Фильтрация − Фильтрация данных при некоторых условиях

Теперь мы создаем объект DataFrame и выполняем все операции над ним.

Пример

#import the pandas library
　import　pandas　as　pd
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　print(df)

Результат выполнения:

　　　　　　Баллы　　　Рейтинг　　　　　Команда　　　Год
0　　　　　　876　　　　　　1　　　Riders　　　2014
1　　　　　　789　　　　　　2　　　Riders　　　2015
2　　　　　　863　　　　　　2　　　Devils　　　2014
3　　　　　　673　　　　　　3　　　Devils　　　2015
4　　　　　　741　　　　　　3　　　Kings　　　2014
5　　　　　　812　　　　　　4　　　　kings　　　2015
6　　　　　　756　　　　　　1　　　　Kings　　　2016
7　　　　　　788　　　　　　1　　　Kings　　　2017
8　　　　　　694　　　　　　2　　　Riders　　　2016
9　　　　　　701　　　　　　4　　　Royals　　　2014
10　　　　　804　　　　　　1　　　Royals　　　2015
11　　　　　690　　　　　　2　　　Riders　　　2017

разделение данных на группы

объект может быть разделен на любые объекты. Есть несколько способов разделения объектов, например:

obj.groupby('key') obj.groupby(['key1','key2']) obj.groupby(key,axis=1)

ныне мы посмотрим, как можно применить объект группировки к объекту DataFrame

пример

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　print(df.groupby('Team'))

Результат выполнения:

проверка групп

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　print(df.groupby('Team').groups)

Результат выполнения:

　　　{'Kings': Int64Index([4, 6, 7], dtype='int64'),
　'Devils': Int64Index([2, 3], dtype='int64'),
　'Riders': Int64Index([0, 1, 8, 11], dtype='int64'),
　'Royals': Int64Index([9, 10], dtype='int64'),
　'kings' : Int64Index([5], dtype='int64')}

пример

группировка по нескольким столбцам

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　print(df.groupby(['Team','Year']).groups)

Результат выполнения:

　　　{('Kings', 2014): Int64Index([4], dtype='int64'),
　　('Royals', 2014): Int64Index([9], dtype='int64'),
　　('Riders', 2014): Int64Index([0], dtype='int64'),
　　('Riders', 2015): Int64Index([1], dtype='int64'),
　　('Kings', 2016): Int64Index([6], dtype='int64'),
　　('Riders', 2016): Int64Index([8], dtype='int64'),
　　('Riders', 2017): Int64Index([11], dtype='int64'),
　　('Devils', 2014): Int64Index([2], dtype='int64'),
　　('Devils', 2015): Int64Index([3], dtype='int64'),
　　('kings', 2015): Int64Index([5], dtype='int64'),
　　('Royals', 2015): Int64Index([10], dtype='int64'),
　　('Kings', 2017): Int64Index([7], dtype='int64')}

Итерация по группам

С объектом groupby мы можем итерироваться по нему, как по itertools.obj.

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　grouped　=　df.groupby('Year')
　for name,group in grouped:
　　　　print(name)
　　　　print(group)

Результат выполнения:

　　2014
　　　Баллы　　Рейтинг　　　　　Команда　　　Год
0　　　　　876　　　　　1　　　Riders　　　2014
2　　　　　863　　　　　2　　　Devils　　　2014
4　　　　　741　　　　　3　　　Kings　　　　2014
9　　　　　701　　　　　4　　　Royals　　　2014
2015
　　　Баллы　　Рейтинг　　　　　Команда　　　Год
1　　　　　789　　　　　2　　　Riders　　　2015
3　　　　　673　　　　　3　　　Devils　　　2015
5　　　　　812　　　　　4　　　Kings　　　2015
10　　　　804　　　　　1　　　Royals　　　2015
2016
　　　Баллы　　Рейтинг　　　　　Команда　　　Год
6　　　　　756　　　　　1　　　Kings　　　2016
8　　　　　694　　　　　2　　　Riders　　　2016
2017
　　　Points Ранг　　　　Команда　　　Год
7　　　　　788　　　　　1　　　Kings　　　2017
11　　　　690　　　　　2　　Riders　　　2017

По умолчанию, имя метки объекта groupby совпадает с именем группы.

Выбор группы p

Используя метод get_group(), мы можем выбрать одну группу.

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　grouped　=　df.groupby('Year')
　print(grouped.get_group(2014))

Результат выполнения:

　　　　　Points Ранг　　　　　Команда　　　Год
0　　　　　876　　　　　1　　　Riders　　　　2014
2　　　　　863　　　　　2　　　Devils　　　　2014
4　　　　　741　　　　　3　　　Kings　　　　　2014
9　　　　　701　　　　　4　　　Royals　　　　2014

Коллекция

Функции агрегации возвращают агрегированные значения для每组. После создания объекта группы можно выполнять несколько операций агрегации на данных группы.

Один明显 способ - это использовать метод sum() или эквивалентный метод agg().

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　import　numpy　as　np
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　grouped　=　df.groupby('Year')
　print(grouped['Points'].agg(np.mean))

Результат выполнения:

　　Year
2014　　　795.25
2015　　　769.50
2016　　　725.00
2017　　　739.00
Name:　Points,　dtype:　float64

Другой способ увидеть размер每组 - это применить функцию size().

Пример

import　pandas　as　pd
　import　numpy　as　np
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　Доступ к атрибутам в Python Pandas
　grouped　=　df.groupby('Team')
　print(grouped.agg(np.size))

Результат выполнения:

　　　　　　　Points　　　Rank　　　Year
Team
Devils　　　　　　　　2　　　　　　2　　　　　　2
Kings　　　　　　　　　3　　　　　　3　　　　　　3
Riders　　　　　　　　4　　　　　　4　　　　　　4
Royals　　　　　　　　2　　　　　　2　　　　　　2
kings　　　　　　　　　1　　　　　　1　　　　　　1

Одновременное применение нескольких функций агрегации

С помощью группированных Series, вы также можете передавать список или словарь функций для агрегации и генерировать DataFrame в качестве результата-

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　import　numpy　as　np
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　grouped　=　df.groupby('Team')
　print(grouped['Points'].agg([np.sum,　np.mean,　np.std]))

Результат выполнения:

　　Team　　　　　　sum　　　　　　mean　　　　　　　　　　std
Devils　　　1536　　　768.000000　　　134.350288
Kings　　　　2285　　　761.666667　　　　24.006943
Riders　　　3049　　　762.250000　　　　88.567771
Royals　　　1505　　　752.500000　　　　72.831998
kings　　　　　812　　　812.000000　　　　　　　　　　NaN

Преобразование

Преобразование в группе или столбце возвращает индекс, размер которого равен размеру объекта, над которым выполняется группировка. Таким образом, преобразование должно возвращать результат, размер которого равен размеру блоков группы.

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　import　numpy　as　np
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　grouped　=　df.groupby('Team')
　score　=　lambda　x:　(x　-　x.mean())　/　x.std()*10
　print(grouped.transform(score))

Результат выполнения:

　　　　　Points　　　　　　　　Rank　　　　　　　　Year
0　　　12.843272　　-15.000000　　-11.618950
1　　　3.020286　　　　　5.000000　　　-3.872983
2　　　7.071068　　　　-7.071068　　　-7.071068
3　　-7.071068　　　　　7.071068　　　　7.071068
4　　-8.608621　　　　11.547005　　-10.910895
5　　　　　　　　NaN　　　　　　　　　　NaN　　　　　　　　　NaN
6　　-2.360428　　　　-5.773503　　　　2.182179
7　　10.969049　　　　-5.773503　　　　8.728716
8　　-7.705963　　　　　5.000000　　　　3.872983
9　　-7.071068　　　　　7.071068　　　-7.071068
10　　7.071068　　　　-7.071068　　　　7.071068
11　-8.157595　　　　　5.000000　　　11.618950

Фильтрация

Фильтрация фильтрация данных по определенным условиям и возврат подмножества данных. Функция фильтрации () используется для фильтрации данных.

Пример

　import　pandas　as　pd
　import　numpy　as　np
　ipl_data　=　{'Team':　['Riders',　'Riders',　'Devils',　'Devils',　'Kings',
　　　　'kings',　'Kings',　'Kings',　'Riders',　'Royals',　'Royals',　'Riders'],
　　　　'Rank': [1, 2, 2, 3, 3, 4, 1, 1, 2, 4, 1, 2],
　　　　'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
　　　　'Points':[876,789,863,673,741,812,756,788,694,701,804,690]
　df = pd.DataFrame(ipl_data)
　print(df.groupby('Team').filter(lambda x: len(x) >= 3))

Результат выполнения:

　　　　　　Баллы　　Рейтинг　　　　　Команда　　　Год
0　　　　　　876　　　　　1　　　Riders　　　2014
1　　　　　　789　　　　　2　　　Riders　　　2015
4　　　　　　741　　　　　3　　　Kings　　　　2014
6　　　　　　756　　　　　1　　　Kings　　　　2016
7　　　　　　788　　　　　1　　　Kings　　　　2017
8　　　　　　694　　　　　2　　　Riders　　　2016
11　　　　　690　　　　　2　　　Riders　　　2017

Операции SQL Pandas Утраченные данные Pandas