English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Структура данных Pandas

Pandas имеет три основных типа данных

Series DataFrame Panel

Эти структуры данных основаны на массивах Numpy, что означает, что они очень быстро работают.

Сравнение Python, Numpy и Pandas

Python

list: вbuilt-in тип данных Python,主要用于 одномерные, простые функции, низкая эффективность Dict: вbuilt-in тип данных Python, многоуровневые ключ-значения, низкая эффективность

Numpy

ndarray: базовые данные типов Numpy, данные одного типа Обратите внимание на структуру данных/операции/меры (отношения данных)

Pandas

Series: одномерные, аналогичные одномерным ndarray с индексами DataFrame: двумерные, табличные типы данных, аналогичные двумерным ndarray с индексами строк и столбцов, внимание уделяется отношениям данных и индексов (практическое применение данных)

Сравнение по практичности, функциональности и操作性: list < ndarray < Series/DataFrame

В работе по упорядочиванию и анализу данных массивы ndarray служат необходимым дополнением, большая часть данных предпочтительно использует типы данных Pandas

Лучший способ рассмотреть эти структуры данных - это认为高мерные структуры данных являются контейнерами для низмерных структур данных. Например, DataFrame является контейнером для Series, а Panel - контейнером для DataFrame.

Структура данных МераОбъяснение
Series1Используется для хранения одномерных данных одной последовательности
Data Frames2DataFrame в качестве более сложной структуры данных используется для хранения многоуровневых данных
Panel3Универсальные 3D-метки, массивы с изменяемым размером.

Создание и обработка двумерных массивов - это繁琐的工作, при написании функций пользователю необходимо учитывать направление данных. Однако использование структур данных Pandas может значительно уменьшить затраты сил пользователя.
Например, для табличных данных (DataFrame), с семантической точки зрения, учитывать индекс (строки) и столбцы полезнее, чем оси 0 и 1.

Вариативность

Все структуры данных Pandas являются изменяемыми по значению (их можно изменять), за исключением Series,其它的大小都是可变的. Series имеет неизменяемый размер.

Примечание - DataFrame используется широко и является одним из важнейших структур данных. Панель используется значительно реже.

Series

Series - это одномерная структура данных в виде массива с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56...

10235617526173902672

Series - это одномерная структура данных в виде массива с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56...

Ключевые моменты

Однородные данные Размер не изменяется Изменяемые значения данных

Data Frames

DataFrame - это двумерный массив с гетерогенными данными. Например:

NameAgeGenderRating
Steve32Male3.45
Lia28Female4.6
Vin45Male3.9
Katie38Female2.78

В таблице выше представлена информация о команде продаж организации и её общем уровне производительности, данные представлены строками и столбцами, каждый столбец代表着 свойство, каждая строка代表着 человека.

Тип данных столбца
СтолбецType
Name String
Age Integer
Gender String
Rating Float
Ключевые моменты

Гетерогенные данные Размер не изменяется Данные изменяемы

Panel

Panel - это трёхмерная структура данных с гетерогенными данными. Панель трудно изобразить графически. Однако панель можно представить как контейнер для DataFrame.

Ключевые моменты

Гетерогенные данные Размер изменяем Данные изменяемы