0

Как работать с библиотекой pandas для анализа данных в Python?

Pandas — это библиотека Python, которая предоставляет мощные инструменты для обработки, анализа и манипуляции данных. В этой статье я расскажу, как начать работать с библиотекой pandas и использовать ее для анализа данных.

Установка pandas
——————
Первым шагом в работе с библиотекой pandas является ее установка. Для этого можно использовать менеджер пакетов pip, выполнив следующую команду в командной строке:

«`
pip install pandas
«`

Базовые структуры данных в pandas
———————————-
Pandas предоставляет две основные структуры данных: `Series` и `DataFrame`. `Series` — это одномерный массив с метками, а `DataFrame` — это двумерная структура данных, состоящая из таблицы с метками для строк и столбцов.

Создание Series:
«`
import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
print(data)
«`

«`
Output:
0 1
1 2
2 3
3 4
4 5
dtype: int64
«`

Создание DataFrame:
«`
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’],
‘Age’: [28, 32, 45],
‘City’: [‘New York’, ‘London’, ‘Paris’]}

df = pd.DataFrame(data)
print(df)
«`

«`
Output:
Name Age City
0 John 28 New York
1 Jane 32 London
2 Mike 45 Paris
«`

Чтение и запись данных
————————
Pandas также предоставляет удобные инструменты для чтения и записи данных из различных источников, таких как CSV-файлы, Excel-файлы, базы данных и т. д.

Пример чтения CSV-файла:
«`
df = pd.read_csv(‘data.csv’)
print(df)
«`

Пример записи DataFrame в CSV-файл:
«`
df.to_csv(‘output.csv’, index=False)
«`

Манипуляции с данными
————————
Pandas предлагает широкий набор возможностей для манипуляции с данными, таких как фильтрация, сортировка, добавление новых столбцов и многое другое.

Пример фильтрации данных по условию:
«`
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’],
‘Age’: [28, 32, 45],
‘City’: [‘New York’, ‘London’, ‘Paris’]}

df = pd.DataFrame(data)
filtered_df = df[df[‘Age’] > 30]
print(filtered_df)
«`

Пример сортировки по столбцу:
«`
sorted_df = df.sort_values(‘Age’)
print(sorted_df)
«`

Группировка данных
———————
Pandas позволяет группировать данные по определенным критериям и выполнять агрегационные функции, такие как сумма, среднее значение, максимум и т. д.

«`
data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’, ‘John’, ‘Jane’],
‘Age’: [28, 32, 45, 36, 29],
‘City’: [‘New York’, ‘London’, ‘Paris’, ‘New York’, ‘London’],
‘Salary’: [50000, 60000, 70000, 55000, 65000]}

df = pd.DataFrame(data)
grouped_df = df.groupby(‘Name’).mean()
print(grouped_df)
«`

«`
Output:
Age Salary
Name
Jane 30.5 62500.0
John 32.0 52500.0
Mike 45.0 70000.0
«`

Визуализация данных
————————
Pandas также предоставляет инструменты для визуализации данных. Одним из самых популярных инструментов является библиотека Matplotlib.

Пример создания графика:
«`
import matplotlib.pyplot as plt

data = {‘Name’: [‘John’, ‘Jane’, ‘Mike’],
‘Age’: [28, 32, 45],
‘Salary’: [50000, 60000, 70000]}

df = pd.DataFrame(data)
df.plot(x=’Name’, y=’Salary’, kind=’bar’)
plt.show()
«`

Это только небольшое введение в работу с библиотекой pandas. Она имеет множество других возможностей, которые могут быть полезны в анализе данных. С помощью pandas вы можете быстро и эффективно обрабатывать и анализировать данные в Python.

Tovarystva Radnyk

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *