Туториал Pandas

Соединение Pandas

Пример операции объединения Pandas

Pandas имеет высокопроизводительные операции по объединению в памяти, которые очень похожи на функции реляционных баз данных, таких как SQL.
Pandas предоставляет единственную функцию merge в качестве входной точки для всех стандартных операций объединения баз данных DataFrame.

　pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
　left_index=False, right_index=False, sort=True)

Здесь мы используем следующие параметры:

левый − Один DataFrame. правый − Другой DataFrame. on − Столбец (имя) добавляется наверх. Он должен быть найден в обоих объектах DataFrame. left_on − Использовать столбцы левого DataFrame в качестве ключа. Это может быть имя столбца, или массив длиной равной длине DataFrame. right_on − Использовать столбцы правого DataFrame в качестве ключа. Это может быть имя столбца, или массив длиной равной длине DataFrame. left_index − Если True, то использовать индекс левого DataFrame (метки строк) в качестве ключа связи. Если DataFrame имеет MultiIndex (многоуровневый), то количество уровней должно соответствовать количеству ключей в правом DataFrame. right_index − Использовать как left_index для правильного данных. how − Один из: «левый», «правый», «внешний», «внутренний». По умолчанию это внутренний. Каждый метод описан ниже. sort − Включить словарную сортировку в результат данных. По умолчанию это True, в многих случаях, установление False значительно улучшит производительность.

Теперь让我们创建两个不同的DataFrame и выполнить их объединение.

Пример

#　import　the　pandas　library
　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right　=　pd.DataFrame(
　　　　{'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']}))
　print(left
　print(right)

Результат выполнения:

　　　　　　Name　　id　　　subject_id
0　　　Alex　　　1　　　　　　　　　sub1
1　　　　Amy　　　2　　　　　　　　　sub2
2　　Allen　　　3　　　　　　　　　sub4
3　　Alice　　　4　　　　　　　　　sub6
4　　Ayoung　　5　　　　　　　　　sub5
　　　　Name　　id　　　subject_id
0　　Billy　　　1　　　　　　　　　sub2
1　　Brian　　　2　　　　　　　　　sub4
2　　Bran　　　　3　　　　　　　　　sub3
3　　Bryce　　　4　　　　　　　　　sub6
4　　Betty　　　5　　　　　　　　　sub5

объединение двух таблиц на одном ключе

Пример

　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right = pd.DataFrame({
　'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']})
　print(pd.merge(left, right, on='id'))

Результат выполнения:

　　　　　Name_x　　　id　　subject_id_x　　　Name_y　　　subject_id_y
0　　Alex　　　　　　1　　　　　　　　　　sub1　　　　Billy　　　　　　　　　　　sub2
1　　Amy　　　　　　　2　　　　　　　　　　sub2　　　　Brian　　　　　　　　　　　sub4
2　　Allen　　　　　3　　　　　　　　　　sub4　　　　　Bran　　　　　　　　　　　sub3
3　　Alice　　　　　4　　　　　　　　　　sub6　　　　Bryce　　　　　　　　　　　sub6
4　　Ayoung　　　　5　　　　　　　　　　sub5　　　　Betty　　　　　　　　　　　sub5

объединение двух таблиц на нескольких ключах

Пример

　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right = pd.DataFrame({
　'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']})
　print(pd.merge(left, right, on=['id', 'subject_id']))

Результат выполнения:

　　　　　　Name_x　　　id　　　subject_id　　　Name_y
0　　　　Alice　　　　4　　　　　　　　　sub6　　　　Bryce
1　　　Ayoung　　　　5　　　　　　　　　sub5　　　　Betty

объединение с параметром 'how'

параметр how объединения определяет, как определять, какие ключи включать в таблице результатов. Если kombinированный ключ не появился ни в левой, ни в правой таблице, то значения в таблице объединения будут NA.

краткое резюме о том, как выбирать и их SQL-эквиваленты:

метод объединения	эквивалент SQL	описание
левый	LEFT OUTER JOIN	использование ключа левого объекта
правый	RIGHT OUTER JOIN	использование правильного ключа объекта
внешний	FULL OUTER JOIN	использование объединенного ключа
внутренний	INNER JOIN	использование пересечения ключей

левое объединение

Пример

　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right = pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']})
　print(pd.merge(left, right, on='subject_id', how='left'))

Результат выполнения:

　　　　　　Name_x　　　id_x　　　subject_id　　　Name_y　　　id_y
0　　　　　Alex　　　　　　1　　　　　　　　　sub1　　　　　　NaN　　　　NaN
1　　　　　　Amy　　　　　　2　　　　　　　　　sub2　　　　Billy　　　　1.0
2　　　　Allen　　　　　　3　　　　　　　　　sub4　　　　Brian　　　　2.0
3　　　　Alice　　　　　　4　　　　　　　　　sub6　　　　Bryce　　　　4.0
4　　　Ayoung　　　　　　5　　　　　　　　　sub5　　　　Betty　　　　5.0

Правое соединение

Пример

　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right = pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']})
　print(pd.merge(left,　right,　on='subject_id',　how='right'))

Результат выполнения:

　　　　　　Name_x　　id_x　　　subject_id　　　Name_y　　　id_y
0　　　　　　Amy　　　2.0　　　　　　　　　sub2　　　　Billy　　　　　　1
1　　　　Allen　　　3.0　　　　　　　　　sub4　　　　Brian　　　　　　2
2　　　　Alice　　　4.0　　　　　　　　　sub6　　　　Bryce　　　　　　4
3　　　Ayoung　　　5.0　　　　　　　　　sub5　　　　Betty　　　　　　5
4　　　　　　NaN　　　NaN　　　　　　　　　sub3　　　　　Bran　　　　　　3

Внешнее соединение

Пример

　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right = pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']})
　print(pd.merge(left,　right,　how='outer',　on='subject_id'))

Результат выполнения:

　　　　　　Name_x　　id_x　　　subject_id　　　Name_y　　　id_y
0　　　　　Alex　　　1.0　　　　　　　　　sub1　　　　　　NaN　　　　NaN
1　　　　　　Amy　　　2.0　　　　　　　　　sub2　　　　Billy　　　　1.0
2　　　　Allen　　　3.0　　　　　　　　　sub4　　　　Brian　　　　2.0
3　　　　Alice　　　4.0　　　　　　　　　sub6　　　　Bryce　　　　4.0
4　　　Ayoung　　　5.0　　　　　　　　　sub5　　　　Betty　　　　5.0
5　　　　　　NaN　　　NaN　　　　　　　　　sub3　　　　　Bran　　　　3.0

Внутреннее соединение

Соединение будет выполняться по индексу. Операция соединения принимает объект, который её вызывает. Поэтому, a.join(b) не равно b.join(a).

Пример

　import　pandas　as　pd
　left　=　pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name':　['Alex',　'Amy',　'Allen',　'Alice',　'Ayoung'],
　　　　'subject_id':['sub1','sub2','sub4','sub6','sub5']})
　right = pd.DataFrame({
　　　　'id':[1,2,3,4,5],
　　　　'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
　　　　'subject_id':['sub2','sub4','sub3','sub6','sub5']})
　print(pd.merge(left, right, on='subject_id', how='inner'))

Результат выполнения:

　　　　　　Name_x　　　id_x　　　subject_id　　　Name_y　　　id_y
0　　　　　　Amy　　　　　　2　　　　　　　　　sub2　　　　Billy　　　　　　1
1　　　　Allen　　　　　　3　　　　　　　　　sub4　　　　Brian　　　　　　2
2　　　　Alice　　　　　　4　　　　　　　　　sub6　　　　Bryce　　　　　　4
3　　　Ayoung　　　　　　5　　　　　　　　　sub5　　　　Betty　　　　　　5

Операции SQL Pandas groupBy Pandas