本篇内容关键词:python基础、数据分析、pandas、描述统计、matlibplot、seaborn、可视化分析
1.1python简介
都说python是门胶水语言,可以在需要的地方轻松地粘合目标需求。我觉得python的主要优点有两点:
- 只需聚焦实现逻辑:只要把逻辑捋顺,调用第三方库可以轻易实现处理逻辑。语法简洁,符合日常阅读的习惯。
- 容易获得相关的技术/理论支持:python社区庞大,只要关键词选取得当即可在网络上检索到大多数问题的解决办法。使用者众多,可以轻易找到使用者交流群组。
1.2python安装
新手可以直接安装Anaconda,这是一个开源的python发行版本,发行版的意思就是在python官方本本的基础上添加了一些额外的内容。这些额外的内容在Anaconda中指的的是:python数据科学计算相关的第三方库、conda(开源软件包和环境管理系统)等。前者集成大多数数据科学计算相关的包,大大节省了学习和使用过程中第三方库安装和配置的时间;后者使得可以在该集成的基础上管理和安装新的第三方库。
1.3python语法和使用
2.1数据获取
- 数据读取:
1)读取数据库数据:pd.read_sql()
2)读取文本数据:pd.read_csv()
3)读取excel数据:pd.read_excel()
更多数据读取的姿势,可以结合具体需求和遇到的问题检索,绝大多数基础问题都会有现成的答案。检索相关函数用法时可以加上关键词 doc 即document的缩写,可以轻易搜到相关的文档。
- 数据初始化:
2.2探索性分析
- 数据预览
- 数据切片
通过label(行/列名)、位置(数字坐标)、布尔运算
可参考官方文档:Indexing and Selecting Data
2.3数据清洗
- 行列处理:切片、排序、合并、转换
- 数据类型转换:
- 缺失值处理:定位、填充、删除
- 赋值
2.4数据分析
- 简单运算:“矩阵”运算
- 统计分析:统计指标计算、聚合分析