心得体会

第5章,Python数据分析案例实战-客户价值分析

时间:2022-08-27 09:20:18  来源:网友投稿

下面是小编为大家整理的第5章,Python数据分析案例实战-客户价值分析,供大家参考。

第5章,Python数据分析案例实战-客户价值分析

 

 客户价值分析

 随着电商行业竞争越来越激烈,推广费用也是越来越高,加之电商法的出台,刷单冲销量的运营思路已不再适应企业需求,而应将更多的思路应转向 客户,做好 客户运营才是企业生存的 王道。

 运营好客户,我们首先就要了解客户、分析客户,找出哪些是 重要保持客户、哪些是发展客户、哪些是 潜在客户,根据不同类别的客户采取不同的营销模式:如分类营销、一对一多样化营销、个性化营销等模式,从而使企业的利润最大化。

 应用场景:某淘宝店铺客户多,消费行为复杂,客户价值很难人工评估。

 RFM模型 重要保持客户 发展客户 潜在客户

 系统设计

 系统 结构图

 客户价值分析 获取Excel 数据 数据 抽取 数据探索分析 数据规约 数据 清洗 数据转换 客户聚类 客户价值分析 获取数据 数据分析 数据 处理

 业务流程图

 用户 数据是否缺失、异常 抽取近两年数据 Y N 标准化处理 客户聚类 客户价值分析 填充、删除处理

 系统预览

 客户群0 客户群1 客户群2 客户群3 755人 273人 560人 2人

 系统预览

 系统开发准备

 开发环境及工具

 

 操作系统 :Windows 7 、Windows 10

 

 开发工具 :Pycharm 

 第三方模块 :pandas 、numpy 、matplotlib 、sklearn

 项目文件结构

 分析方法

 RFM模型 聚类分析 聚类算法

 RFM 模型

 RFM模型 最近消费时间间隔

 Recency 消费频率

 Frequency 消费金额

 Monetary R F M

 聚类分析

  聚类类似于 分类,不同的是聚类划分的类是 未知的,也就是说我们不知道应该属于哪类,而是通过一定的 算法自动分类。而在实际应用中,聚类就是将 数据 集中某些方面 相似的数据进行 分类 组织的过程。

 应用领域

 聚类分析主要应用领域:

 商业 生物 保险行业 因特网 电子商务

 K K- - means 聚类 算法

 传统的聚类算法包括五类:

  划分方法  层次方法  基于密度方法  基于网络方法  基于模型方法 K-means聚类算法

 K K- - means 聚类 算法

 k k 均值聚类是给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。

 01

 创建k个点作为起始质心,可以随机选择(位于数据边界内)

 02

 当任意一个点的簇分配结果发生改变时 03

  对数据集中每一个点 04

 对每个质心 05

 计算质心与数据点之间的距离 06

 将数据点分配到距其最近的簇 07

  对每一个簇,计算簇中所有点的均值并将均值作为质心 伪代码

 K K- - means 聚类 算法

 终止条件可以是以下任意一个:

  没有(或最小数目)对象被重新分配给不同的聚类。

  没有(或最小数目)聚类中心再发生变化。

  误差平方和局部最小。

 技术准备

 Sklearn 模块

 1

  K K- - means 聚类

 2

  Pandas 模块

 3

 Sklearn 模块

 Sklearn 模块(全称Scikit-learn)是Python的第三方模块,它是机器学习领域当中知名的Python模块之一,它对常用的机器学习算法进行了封装,包括 回归(Regression)、降维(Dimensionality Reduction)、 分类(Classfication)和 聚类(Clustering)四大机器学习算法。Sklearn具有以下特点:

  简单高效的数据挖掘和数据分析工具  让每个人能够在复杂环境中重复使用  Sklearn模块是Scipy模块的扩展,是建立在NumPy和Scipy基础上的模块

 Sklearn 模块

 Sklearn 模块的安装

   使用pip命令安装

  Python版本为2.7以上、NumPy版本1.8以上、SciPy版本0.13.3以上。首先,安装NumPy和SciPy,如果已经安装NumPy和SciPy,那么安装scikit-learn可以在命令提示符下(cmd)使用安装命令:

 pip install scikit-learn  在Pycharm开发环境下安装

 K K- - means 聚类

 调用 KMeans 类

  from sklearn.cluster import KMeans

  客户价值分析系统主要是通过Scikit——learn的cluster模块提供的Kmeans函数来处理K-means聚类问题的,首先调用Kmeans类。

 K K- - means 聚类

 基本语法

  kmodel = KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’,verbose=0,random_state=None,copy_x=True,n_jobs=None, algorithm=’auto’)

 常用参数及说明

 参数 说明 n_clusters 整型,默认值8,表示生成的聚类数 init 3个可选值分别为‘ k-means++’、‘random’或者提供一个数组。默认值为" k-means++"

 n_init 整型,表示算法的运行次数,默认值为10 max_iter 整型,默认值300,表示每执行一次k-means算法的最大迭代次数 tol float类型,表示算法收敛的阈值,默认值为0.0001 precompute_distances 3个可选值分别为"auto"、True或者False。该参数用于提前计算好样本之间的距离。默认值为"auto" verbose 整型,默认值=0

 常用参数及说明

 参数 说明 random_state 整型,表示随机数生成器的种子。默认值为None n_jobs 整型,表示指定计算所用的进程数。默认值为1

 属性说明

 

 cluster_centers_:

 :

 返回ndarray 。表示分类簇的均值向量 

 labels_:

 :

 返回ndarray 。表示每个样本所属的簇的标记 

 inertia_:

 :

 返回ndarray 。

 表示每个样本距离它们各自最近簇的中心之和

 pandas 模块

 Pandas是Python的一个核心模块,主要用于数据处理与数据分析,它提供了快速、灵活、明确的数据结构,能够简单、直观地处理关系型、标记型数据。

 客户价值分析

 数据抽取

 数据抽取

 数据抽取是从数据源中抽取数据的过程。

  淘宝电商存在大量的历史销售数据,我们从中抽取近两年的数据2017 年1 1 月1 1 日 —— 2018 年 12 月 31 日

 业务数据库1 业务数据库2 „„ 业务数据库n 抽取 数据 仓库

 数据探索 分析

 数据探索分析

 数据探索分析主要分析与客户价值RFM模型有关的数据是否存在数据缺失、数据异常的情况,分析出数据的规律。

 主要使用:

 describe 函数

 开发步骤

 ①

 导入模块pandas ②

 使用 pandas读取 Excel 数据 ③

 使用describe 函数 统计数据 ④

 计算空值数( 缺失数据)

 )

 ⑤

 导出结果

 最终实现效果

 数据处理

 开发步骤

 ①

 数据规约 ②

 数据清洗 ③

 数据转换

 数据规约

 数据 规约是指在接近或保持原始数据完整性的同时将数据集规模减小,以提高数据处理的速度。

 …… 58列 买家会员名 订单付款时间 买家实际支付 金额 数据采集时间

 编写 相关代码

 aa =r"TB201812.xls" df = pd.DataFrame(pd.read_excel(aa)) df1=df[["订单付款时间","买家会员名","买家实际支付金额","数据采集时间"]] 指定 Excel 文件

 读取 Excel 文件

 选取需要的数据

 数据清洗

 数据清洗

 通过前面的数据探索分析,我们发现在淘宝电商历史销售数据中存在一些 缺失值,例如“ 订单付款日期”为空、“ 买家实际支付金额”最小值为0,下面将这部分数据清理掉,关键代码如下:

 #去除空值,订单付款时间非空值才保留 #去除买家实际支付金额为0的记录 df1=df1[df1["订单付款时间"].notnull() & df1["买家实际支付金额"] !=0]

 数据转换

 数据转换

 数据 转换是将数据转换成“适当的”格式,以适应 数据分析和数据挖掘算法的需要。下面将清理后的数据进行标准化处理。

 最终实现效果

 客户聚类

 客户聚类

 客户 聚类主要使用Python第三方模块 Sklearn 模块中提供的K K- - means聚类方法对客户数据进行分类。根据业务需要,这里分为4 4 类。

 开发步骤

 ①

 导 入数据 ②

 数据塞进

 模型 ③

 客户聚类

 最终实现效果

 客户价值分析

 客户价值分析结果解析

 客户价值分析结果解析

 常见问题与解决

 常见错误与解决

  1 1 、缺少模块导致程序运行错误

  2 2 、模块版本不适合导致程序运行错误

 常见错误与解决

  3 3 、 Excel 文件打开时程序运行错误

 注意事项

  4 4 、数据结果保存 Excel 文件时

 注意:index参数,是否输出索引

 安装缺失的模块

 安装缺失的模块

 在 Available Packages窗口的搜索框中输入模块名称,比如xlrd,模块搜索到后勾选安装复选框,然后单击Install Package按钮即可安装该模块。

 模块安装版本选择

 在File菜单中选择Settings打开Available Packages窗口,在该窗口中找到 Specify version 复选框,在下拉列表中选择 0.21.0版本

相关热词搜索: 基于python的数据分析案例 第5章 Python数据分析案例实战-客户价值分析 分析 实战 案例
相关文章

版权所有:顶伦文库网 2019-2025 未经授权禁止复制或建立镜像[顶伦文库网]所有资源完全免费共享

Powered by 顶伦文库网 © All Rights Reserved.。备案号:豫ICP备19021658号-1