numpy和pandasPPT
NumPy与Pandas详解引言在Python的数据科学领域,NumPy和Pandas是两个不可或缺的库。NumPy提供了高性能的多维数组对象以及一系列操...
NumPy与Pandas详解引言在Python的数据科学领域,NumPy和Pandas是两个不可或缺的库。NumPy提供了高性能的多维数组对象以及一系列操作这些数组的工具,而Pandas则提供了一个强大的数据分析框架,包含数据结构(如Series和DataFrame)以及数据分析工具。NumPy概述NumPy(Numerical Python的简称)是Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy的核心是一个强大的N维数组对象ndarray,它提供了一系列的方法来快速操作数组。ndarray对象ndarray是NumPy用于存储大型多维数组和矩阵的核心对象。它是一个快速、灵活的大数据容器。可以通过多种方式创建ndarray,例如:ndarray对象有一些重要的属性,如::数组的维度:数组元素的数据类型:数组元素的总数:数组的维数ndarray支持多维索引和切片。ndarray运算NumPy提供了大量的函数来操作ndarray对象,包括数学运算、统计运算等。随机数生成NumPy还提供了随机数生成的功能。生成0到1之间的随机数print(np.random.rand(3, 3))生成指定范围内的整数print(np.random.randint(1, 10, size=(3, 3)))Pandas概述Pandas是一个强大的数据分析库,提供了数据结构(如Series和DataFrame)以及数据分析工具,使数据处理变得简单高效。SeriesSeries是一种类似于一维数组的对象,它可以保存任何数据类型(整数、字符串、浮点数、Python对象等)。DataFrameDataFrame是一个二维的表格型数据结构,它可以保存多种类型的数据,并且每一列数据的类型可以不同。DataFrame的基本操作选择单列column_series = df['name']选择多列subset = df[['name', 'age']]选择行row = df.loc[0] # 通过行标签选择row_slice = df.iloc[0:2] # 通过行号选择条件选择filtered_df = df[df['age'] > 30]修改单个值df.at[0, 'age'] = 26修改多个值df.loc[df['age'] < 30, 'age'] += 1添加新列df['salary'] = [50000, 60000, 70000]排序sorted_df = df.sort_values(by='age', ascending=False)分组grouped_df = df.groupby('city')mean_ages = grouped_df['age'].mean()合并两个DataFramedf1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})merged_df = pd.merge(df1, df2, on='key')连接两个DataFramedf3 = pd.DataFrame({'key': ['D', 'E', 'F'], 'value3': [7, 8, 9]})concat_df = pd.concat([merged_df, df3], ignore_index=True)数据读取与写入Pandas提供了读取和写入各种文件格式(如CSV、Excel、SQL等)的便捷方法。数据可视化虽然Pandas本身不直接提供数据可视化功能,但它与Matplotlib、Seaborn等可视化库结合得非常好。总结NumPy和Pandas是Python数据科学领域两个不可或缺的工具。NumPy提供了高性能的多维数组对象和数学运算功能,而Pandas则提供了强大的数据结构和数据分析工具。通过结合使用这两个库,你可以轻松地进行数据清洗、转换、分析和可视化。希望这篇文章能帮助你更好地理解和使用NumPy和Pandas。