English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Учебник Pandas в Python

Pandas - это открытый исходный код, лицензированный по BSD. Python Библиотека для анализа данных, предоставляющая высокопроизводительные и удобные в использовании структуры данных и инструменты анализа данных для языков программирования Python. Pandas в Python используется в широком спектре областей, включая академические и коммерческие, такие как финансы, экономика, статистика, анализ и т.д. Pandas - это мощный набор инструментов для анализа структурированных данных; его основа - Numpy (предоставляющий высокопроизводительные вычисления матриц); используется для данных挖掘 и анализа данных, а также предоставляет функции очистки данных. В этом руководстве мы изучим различные функции Pandas и их использование на практике.

Этот учебник предназначен для тех, кто хочет изучить базовые знания и различные функции Pandas. Это особенно полезно для тех, кто занимается очисткой и анализом данных. После завершения этого учебника вы обнаружите, что у вас есть средний уровень знаний, и вы можете получить более высокий уровень знаний.

Прежде чем учиться на Pandas, вы должны иметь базовые знания компьютерных программных терминов. Знания любого программного языка являются плюсом. Библиотека pandas использует большинство функций NumPy. Рекомендуется сначала прочитать руководства по NumPy, а затем продолжить это руководство.

Pandas подходит для обработки следующих типов данных:

Таблицы данных с гетерогенными столбцами, подобно таблицам SQL или Excel; Элементы массива NumPy должны иметь одинаковый тип данных, поэтому они занимают одинаковое количество места в памяти; Организованные и неорганизованные (нефиксированная частота) временные ряды; Матричные данные с метками строк и столбцов, включая гомогенные и гетерогенные данные; Любые другие формы наборов данных с наблюдениями и статистическими данными, при вводе данных в структуры Pandas не нужно предварительно маркировать.

Почему использовать Pandas?

Основные данные структуры Pandas - Series (одномерные данные) и DataFrame (двумерные данные), эти структуры достаточно универсальны для обработки типичных примеров в области финансов, статистики, социальных наук, инженерии и т.д. Для пользователей R, DataFrame предоставляет более丰富的 функции, чем data.frame языка R. Pandas разработан на основе NumPy и может интегрироваться с другими第三方 библиотеками для научных вычислений. Pandas подобен универсальному швейцарскому армейскому кинжалу, и здесь перечислены лишь некоторые из его преимуществ:

Обработка пропущенных данных в данных с плавающей точкой и без, представленных как NaN; Меняющаяся величина: вставка или удаление столбцов DataFrame и других многомерных объектов; Автоматическая и явная привязка данных: явное совмещение объектов с группой меток, также можно пропустить метки, и при вычислении Series, DataFrame данные будут автоматически привязаны; Мощная и гибкая функция группировки(group by): разбиение, приложение, комбинирование наборов данных, агрегация, преобразование данных; Легко преобразовывать неструктурированные, различные по индексу данные из структур Python и NumPy в объекты DataFrame; На основе умных меток выполнять операции по нарезке, фенwick-поиску, разбиению подмножеств и т.д. для больших наборов данных; Интуитивно объединять(merge)、**соединять(join)** наборы данных; Гибко重塑(reshape)、**поворот(pivot)** наборов данных; Поддержка структурированных меток по осям: один масштаб поддерживает несколько меток; Зрелые инструменты ввода-вывода: чтение данных из текстовых файлов (файлов CSV и других файлов, поддерживающих разделители), файлов Excel, баз данных и других источников данных, сохранение / загрузка данных с помощью быстрого формата HDF5; Ценностные ряды: поддержка генерации диапазонов дат, преобразования частоты, статистики移动кого окна, линейной регрессии мобильного окна, смещения дат и других функций временных рядов.

Эти функции в основном предназначены для решения болей других языков программирования и научных сред. Обработка данных обычно включает несколько этапов: подготовка и очистка данных, анализ и моделирование данных, визуализация и таблицы данных, Pandas является идеальным инструментом для обработки данных.

Другие замечания:

Pandas быстро. Многие низкоуровневые алгоритмы Pandas оптимизированы с помощью Cython. Однако, для сохранения универсальности, необходимо жертвовать некоторыми показателями производительности, и完全可以 разработать专用 инструменты, которые будут быстрее Pandas, если сосредоточиться на определенной функции. Pandas является зависимостью statsmodels, поэтому Pandas также является важной частью экосистемы статистических вычислений в Python. Pandas уже широко используется в финансовой области.

Простой пример Pandas

  $ pip install pandas
  $ python -i
  >>> pandaspd
 >>> df = pd.() 
 >>> print(df)
  Пустой DataFrame
 Столбцы: []
 Индекс: []