English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandas имеет три основных типа данных
Series DataFrame Panel
Эти структуры данных основаны на массивах Numpy, что означает, что они очень быстро работают.
list: вbuilt-in тип данных Python,主要用于 одномерные, простые функции, низкая эффективность Dict: вbuilt-in тип данных Python, многоуровневые ключ-значения, низкая эффективность
ndarray: базовые данные типов Numpy, данные одного типа Обратите внимание на структуру данных/операции/меры (отношения данных)
Series: одномерные, аналогичные одномерным ndarray с индексами DataFrame: двумерные, табличные типы данных, аналогичные двумерным ndarray с индексами строк и столбцов, внимание уделяется отношениям данных и индексов (практическое применение данных)
Сравнение по практичности, функциональности и操作性: list < ndarray < Series/DataFrame
В работе по упорядочиванию и анализу данных массивы ndarray служат необходимым дополнением, большая часть данных предпочтительно использует типы данных Pandas
Лучший способ рассмотреть эти структуры данных - это认为高мерные структуры данных являются контейнерами для низмерных структур данных. Например, DataFrame является контейнером для Series, а Panel - контейнером для DataFrame.
Структура данных | Мера | Объяснение |
Series | 1 | Используется для хранения одномерных данных одной последовательности |
Data Frames | 2 | DataFrame в качестве более сложной структуры данных используется для хранения многоуровневых данных |
Panel | 3 | Универсальные 3D-метки, массивы с изменяемым размером. |
Создание и обработка двумерных массивов - это繁琐的工作, при написании функций пользователю необходимо учитывать направление данных. Однако использование структур данных Pandas может значительно уменьшить затраты сил пользователя.
Например, для табличных данных (DataFrame), с семантической точки зрения, учитывать индекс (строки) и столбцы полезнее, чем оси 0 и 1.
Все структуры данных Pandas являются изменяемыми по значению (их можно изменять), за исключением Series,其它的大小都是可变的. Series имеет неизменяемый размер.
Примечание - DataFrame используется широко и является одним из важнейших структур данных. Панель используется значительно реже.
Series - это одномерная структура данных в виде массива с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series - это одномерная структура данных в виде массива с однородными данными. Например, следующая серия представляет собой набор целых чисел 10, 23, 56...
Однородные данные Размер не изменяется Изменяемые значения данных
DataFrame - это двумерный массив с гетерогенными данными. Например:
Name | Age | Gender | Rating |
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
В таблице выше представлена информация о команде продаж организации и её общем уровне производительности, данные представлены строками и столбцами, каждый столбец代表着 свойство, каждая строка代表着 человека.
Столбец | Type |
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
Гетерогенные данные Размер не изменяется Данные изменяемы
Panel - это трёхмерная структура данных с гетерогенными данными. Панель трудно изобразить графически. Однако панель можно представить как контейнер для DataFrame.
Гетерогенные данные Размер изменяем Данные изменяемы