pandas

维基百科,自由的百科全书
跳到导航 跳到搜索

pandas
Pandas logo.svg
原作者Wes McKinney
開發者社区
初始版本2008年1月11日,​13年前​(2008-01-11
穩定版本
1.1.2[1]
(2020年9月9日,​4個月前​(2020-09-09
源代码库 編輯維基數據鏈接
编程语言Python, Cython, C
操作系统跨平台
类型数据分析英语List of numerical analysis software
许可协议三条款BSD许可证
网站pandas.pydata.org

计算机编程中,pandasPython编程语言的用于数据操纵和分析的软件库。特别是,它提供操纵数值表格和时间序列的数据结构和运算操作。它是在三条款BSD许可证下发行的自由软件[2]。它的名字衍生自术语“面板数据”(panel data),这是计量经济学的数据集术语,它们包括了对同一个体的在多个时期上的观测[3]。它的名字是短语“Python data analysis”自身的文字游戏[4]

库特征[编辑]

  • DataFrame对象,用于数据操纵并具有集成的索引。
  • 在内存中数据结构和不同的文件格式之间读写数据的工具。
  • 数据对齐和集成的缺失数据处理。
  • 数据集的再成形(reshape)和旋转(pivot)。
  • 大数据集的基于标签的分片英语Array slicing、fancy索引和子集。
  • 数据结构列的插入和删除。
  • 按引擎(engine)分组,允许在数据集上的分离-应用-合并(split-apply-combine)运算操作。
  • 数据集的归并和连接。
  • 层级轴索引,以低维数据结构工作在高维数据上。
  • 时间序列-功能:数据范围生成[5]和频率转换,移动窗口统计,移动窗口线性回归,数据转移(shift)和滞后(lag)。
  • 提供数据过滤。

这个库对性能进行了高度优化,具有关键代码路径用CythonC写成[6]

Dataframe[编辑]

pandas主要用于数据分析。pandas允许从各种文件格式比如CSVJSONSQLMicrosoft Excel导入数据[7]。pandas允许各种数据操纵运算操作比如归并[8]、再成形[9]、选择[10],还有数据清洗数据加工英语data wrangling特征。

历史[编辑]

开发者Wes McKinney于2008年在AQR Capital Management英语AQR Capital开始制作pandas来满足在财务数据上进行定量分析英语Quantitative analysis (finance)对高性能、灵活工具的需要。在离开AQR之前他说服管理者允许他将这个库开放源代码

另一个AQR雇员Chang She,在2012年加入了这项努力并成为这个库的第二个主要贡献者。

在2015年,pandas签约了NumFOCUS的一个财务赞助项目,它是美国的501(c)(3)非营利慈善团体英语501(c)(3) organization[11]

参见[编辑]

引用[编辑]

  1. ^ What’s new in 1.1.2. pandas. 9 September 2020 [9 September 2020]. 
  2. ^ License – Package overview – pandas 1.0.0 documentation. pandas. 28 January 2020 [30 January 2020]. (原始内容存档于2012-02-14). 
  3. ^ Wes McKinney. pandas: a Foundational Python Library for Data Analysis and Statistics (PDF). 2011 [2 August 2018]. (原始内容 (PDF)存档于2015-05-13). 
  4. ^ McKinney, Wes. Python for Data Analysis, Second Edition. O'Reilly Media. 2017: 13. ISBN 9781491957660. 
  5. ^ pandas.date_range – pandas 1.0.0 documentation. pandas. 29 January 2020 [30 January 2020]. (原始内容存档于2014-03-29). 
  6. ^ Python Data Analysis Library – pandas: Python Data Analysis Library. pandas. [13 November 2017]. (原始内容存档于2012-02-13). 
  7. ^ 存档副本. [2020-09-12]. (原始内容存档于2020-09-15). 
  8. ^ 存档副本. [2020-09-12]. (原始内容存档于2020-09-15). 
  9. ^ 存档副本. [2020-09-12]. (原始内容存档于2020-09-15). 
  10. ^ 存档副本. [2020-09-12]. (原始内容存档于2020-09-15). 
  11. ^ NumFOCUS – pandas: a fiscally sponsored project. NumFOCUS. [3 April 2018]. (原始内容存档于2018-04-04). 

延伸阅读[编辑]

  • Chen, Daniel Y. Pandas for Everyone : Python Data Analysis. Boston: Addison-Wesley. 2018. ISBN 978-0-13-454693-3. 
  • McKinney, Wes. Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython 2nd. Sebastopol: O'Reilly. 2017. ISBN 978-1-4919-5766-0. 
  • VanderPlas, Jake. Data Manipulations with Pandas. Python Data Science Handbook: Essential Tools for Working with Data. O'Reilly. 2016: 97–216. ISBN 978-1-4919-1205-8. 
  • Pathak, Chankey. Pandas Cookbook. Pandas Cookbook. 2018: 1–8. 

外部链接[编辑]