Pandas — это библиотека Python, которая предоставляет мощные инструменты для обработки, анализа и манипуляции данных. В этой статье я расскажу, как начать работать с библиотекой pandas и использовать ее для анализа данных.
Установка pandas
——————
Первым шагом в работе с библиотекой pandas является ее установка. Для этого можно использовать менеджер пакетов pip, выполнив следующую команду в командной строке:
«`
pip install pandas
«`
Базовые структуры данных в pandas
———————————-
Pandas предоставляет две основные структуры данных: `Series` и `DataFrame`. `Series` — это одномерный массив с метками, а `DataFrame` — это двумерная структура данных, состоящая из таблицы с метками для строк и столбцов.
Создание Series:
«`
import pandas as pd
data = pd.Series([1, 2, 3, 4, 5])
print(data)
«`
«`
Output:
0 1
1 2
2 3
3 4
4 5
dtype: int64
«`
Создание DataFrame:
«`
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’],
‘Age’: [28, 32, 45],
‘City’: [‘New York’, ‘London’, ‘Paris’]}
df = pd.DataFrame(data)
print(df)
«`
«`
Output:
Name Age City
0 John 28 New York
1 Jane 32 London
2 Mike 45 Paris
«`
Чтение и запись данных
————————
Pandas также предоставляет удобные инструменты для чтения и записи данных из различных источников, таких как CSV-файлы, Excel-файлы, базы данных и т. д.
Пример чтения CSV-файла:
«`
df = pd.read_csv(‘data.csv’)
print(df)
«`
Пример записи DataFrame в CSV-файл:
«`
df.to_csv(‘output.csv’, index=False)
«`
Манипуляции с данными
————————
Pandas предлагает широкий набор возможностей для манипуляции с данными, таких как фильтрация, сортировка, добавление новых столбцов и многое другое.
Пример фильтрации данных по условию:
«`
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’],
‘Age’: [28, 32, 45],
‘City’: [‘New York’, ‘London’, ‘Paris’]}
df = pd.DataFrame(data)
filtered_df = df[df[‘Age’] > 30]
print(filtered_df)
«`
Пример сортировки по столбцу:
«`
sorted_df = df.sort_values(‘Age’)
print(sorted_df)
«`
Группировка данных
———————
Pandas позволяет группировать данные по определенным критериям и выполнять агрегационные функции, такие как сумма, среднее значение, максимум и т. д.
«`
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’, ‘John’, ‘Jane’],
‘Age’: [28, 32, 45, 36, 29],
‘City’: [‘New York’, ‘London’, ‘Paris’, ‘New York’, ‘London’],
‘Salary’: [50000, 60000, 70000, 55000, 65000]}
df = pd.DataFrame(data)
grouped_df = df.groupby(‘Name’).mean()
print(grouped_df)
«`
«`
Output:
Age Salary
Name
Jane 30.5 62500.0
John 32.0 52500.0
Mike 45.0 70000.0
«`
Визуализация данных
————————
Pandas также предоставляет инструменты для визуализации данных. Одним из самых популярных инструментов является библиотека Matplotlib.
Пример создания графика:
«`
import matplotlib.pyplot as plt
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’],
‘Age’: [28, 32, 45],
‘Salary’: [50000, 60000, 70000]}
df = pd.DataFrame(data)
df.plot(x=’Name’, y=’Salary’, kind=’bar’)
plt.show()
«`
Это только небольшое введение в работу с библиотекой pandas. Она имеет множество других возможностей, которые могут быть полезны в анализе данных. С помощью pandas вы можете быстро и эффективно обрабатывать и анализировать данные в Python.