python做可视化数据分析?
Python语言的可读性、可解释性都很强。还拥有很多方便的第三方库,可以灵活选择需要的库,绘制出很漂亮的可视化图表。
从数据描述、描述性统计分析、模型构建,到最后模型表现对比,都可以使用Python及适当的第三方库,实现精美可视化。以下,用动手做过的要给案例为例子,做简单说明。案例的具体代码,可以点击文末链接细看!
描述性统计分析阶段:饼图——展现标签类变量,单变量中各类标签的占比观察数据集中流失与未流失客户的占比情况
环形图(饼图的一种)——按照目标变量进行分类,绘制单个标签变量中不同类型的占比。环形图,按照客户是否流失进行分类,每类客户中男女的占比
上面展现的这个环形图画法,可以封装为一个函数。调用函数,传入需要绘制的变量,就可以绘制响应变量的双环形图;还可以直接使用for循环,一次绘制n多个图。
甚至还可以根据你想要的展示结果进行调整,一次展示更多内容。
柱状图、直方图——分组展现数值型数据的分布情况按照是否流失进行划分,观察不同存续期间的用户占比
散点图(Scatter plot)——观察数值型数据分布情况最简单的方法数据集中三个数值型数据,按照用户是否流失划分之后的散点图
除了展现单变量中的数据分布,还可以绘制双变量散点图,初步观察两个变量之间的关系。
按照存续时间长短份分类,用户月消费与总消费关系散点图
展现变量相关性的Heatmapheatmap热力图
主成分分析(PCA)结果可视化输出2维特征的主成分分析结果散点图展示
雷达图(Radar plot)——用于用户画像分析很合适按照用户是否流失划分,各个分类变量计数情况
模型构建阶段以逻辑回归为例:
可以显示模型report表格分类report
混淆矩阵可视化、模型的得分可视化混淆矩阵和模型得分
特征重要性可视化特征重要性排序
使用多个模型,可以在最后将所有模型表现进行汇总比较各个指标输出为表格模型指标得分表格输出
第一列显示了构建的分类模型,一共11个。
各模型、各指标得分情况的水平柱状图各模型、各指标水平柱状图
各模型混淆矩阵组合图模型混淆矩阵组合图
模型ROC曲线组合图模型ROC曲线组合图
模型精密找回曲线组合图PR曲线组合图
完整过程,可以参照以下文章:Kaggle|电信客户流失分析:Part one
Kaggle|电信用户流失分析:Part two
Kaggle|电信用户流失分析:Part three
Kaggle|电信用户流失分析:Part four