一、安装,导入
1、安装
使用包管理器安装:
pip3 install pandas
2、导入
import pandas as pd
as是为了方便引用起的别名
二、DateFrame
在Pandas库中,DataFrame
是一种非常重要的数据结构,它提供了一种灵活的方式来存储和操作结构化数据。DataFrame
类似于Excel中的表格,具有行和列,其中每列可以是不同的数据类型(数值、字符串、布尔值等)。
1、创建DateFrame
import pandas as pd # 从字典创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data) # 从列表的字典创建 DataFrame
data_list = [{'Name': 'Alice', 'Age': 25, 'City': 'New York'}, {'Name': 'Bob', 'Age': 30, 'City': 'Los Angeles'}, {'Name': 'Charlie', 'Age': 35, 'City': 'Chicago'}]
df_list = pd.DataFrame(data_list)
两个对象存储情况:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
2、查看 DateFrame
# 查看前几行
print(df.head()) # 查看后几行
print(df.tail()) # 查看数据的基本信息
print(df.info()) # 查看数值列的统计信息
print(df.describe())
head和tail括号内都可以写数值指定要前几行。默认是5行。
3、选择数据
你可以通过列名、行标签(索引)或条件来选择数据。
# 选择单列
print(df['Name']) # 选择多列
print(df[['Name', 'Age']]) # 通过行标签选择(假设设置了索引)
# df.set_index('Name', inplace=True)
# print(df.loc['Alice']) # 通过条件选择
print(df[df['Age'] > 30])
当你使用 inplace=True
参数时,这个操作会直接在原DataFrame上进行,而不会返回一个新的DataFrame。之后,你可以使用 .loc[]
索引器来根据新的索引值选择数据。
可以通过设置index属性自定义输出的顺序。