今天简单说下数据分析的工具技巧。
IPython notebook(现在叫jupyter)一直是数据分析的利器。
我长期以来都用它玩单机版的数据分析,BI虽然在线上环境,但偏报表。最近在查询资料的时候,发现它能完美地和Docker兼容。Docker我只了解部分概念,不过并不妨碍阅读文章。
于是拜托我们的运维大哥将IPython搭建在服务器上。
网上扒拉几篇教程给他就搞定了,不难。
通过服务器的IP访问,和本地环境没什么交互差异。
试一下作图,也ok。
直接在服务器读写数据,直接分析,避免下载CSV的环节。如果设置好的话,数据分析的效率 能提升一截。对我们部门,也希望从SQL+Excel的分析习惯转换到SQL+Python的分析习惯。当然用不用Excel还是看实际的效率。
可以进行协同数据分析
协同有多好就不说了。
数据分析师之间可以互现查看对方的分析思路和结果,分析过程都是直接可见的。
也可以在对方的分析基础上直接修改。比如A完成了数据分析前的清洗过程,B就直接访问文件,继续接下来的探索分析。更可以用Markdown批注。
每一次Python的数据分析过程直接保存在服务器上,多酷~数据分析的团队性也加强。
可扩展性
因为Docker,现在只要在服务器端pip package就行,甚至本地电脑不用安装Python和大量的包,直接登录服务器上手(个人建议本地还是要有的)。