0%

用户偏好分析案例

本文是根据《活用数据|驱动业务的数据分析实战》中的案例进行的学习总结,主要是针对彩电用户的特征和行为,从研究调查问卷组成,以及分析问卷,来统计用户偏好。

适用于需要结合案例学习数据分析方法的初学者。

总体思路

国内某彩电企业为了摆脱价格战,提高核心竞争力,从用户入手,针对不同用户偏好,展开差异化营销。同样地,我们需要明确研究目的和研究内容。

研究目的很简单,就是开展差异化营销。差异化营销是使得企业最大限度地满足用户需求,从而提高企业的营业业绩;那么差异化营销在该企业是否可行,就需要考虑多个维度的因素,基于时间思维和结构思维进行分析,将用户偏好分为五个阶段和七个要素。

研究内容就围绕五个阶段和七个要素进行展开:

  • 产生需求阶段:购买的原因(why)、决策时间(when)、了解程度(how much)
  • 信息收集阶段:获取信息的渠道(where)、关注哪些信息(what)
  • 方案比选阶段:比较时考虑的因素(what)、各因素考虑的程度(how)
  • 购买决策阶段:最终买的是什么(what)
  • 购后行为阶段:如何使用彩电(how)

调查问卷

根据以上的研究内容,设计一份调查问卷,来获得相应的调查数据,来进行定量分析。

问卷结果由以下几个问题组成: 1. 问卷编号 2. 是否购买彩电:S1甄别问题 3. 产生需求阶段:Q1购买原因,Q2决策时间,Q3了解程度 4. 信息收集阶段:Q4信息渠道,Q5关注信息 5. 方案比选阶段:Q6刻录功能考虑程度,Q7耗电量考虑程度,Q8上网功能考虑程度,Q9他人推荐考虑程度,Q10促销活动考虑程度,Q11感兴趣的促销活动 6. 购买决策阶段:Q12品牌,Q13价格,Q14外观,Q15规格,Q16颜色 7. 购后行为阶段:Q17安装方式,Q18摆放位置 8. 用户背景信息:A1性别,A2年龄,A3学历,A4家庭收入,A5住房面积,A6家庭成员

调研计划

完成调查问卷的创建之后,紧接着进行问卷调查,这里需要明确6个问题: * 调查方法:例如中心定点拦截访问(CIL) * 调查对象:某天之后购买过彩电的用户 * 调查地点与样本量: * 项目周期: * 项目成员及职责: * 项目经理:负责整个项目的统筹控制,业务沟通、制定方案、控制进度及质量、团队协调沟通 * 督导员:向项目经理汇报工作进展,招聘和监督访问员,对访问质量直接负责 * 访问员:负责实际访问,向督导员汇报工作进度 * 数据处理人员:调查问卷审核,数据录入,数据检查和对数据质量进行评价 * 数据分析人员:对调查和处理好的数据进行研究分析 * 报告撰写与宣讲人员:撰写分析报告并向相关领导汇报 * 项目质量与进度控制:安排跟访,保证数据真实有效性,并及时汇报和录入数据

数据处理

调查得到的数据是最原始的数据,其中可能会出现很多的问题,所以需要对数据先进行处理,主要分为四个步骤: * 数据集成:将多个数据源的数据进行合并 * 数据转换:对数据进行标准化处理 * 数据消减:对数据进行聚合和降维,减小数据规模 * 数据清洗:数据筛选、数据去重、填补缺失值和数据纠错。(本案例仅关注数据清洗)

数据编码

其中方案比选阶段的Q6-Q10数据为数值数据,可以直接进行数据分析,而其他数据均为类别数据,需要使用编码格式进行数值转换

针对不存在大小的分类数据,可以直接使用set容器去重,再使用map进行硬编码,若存在大小的,最好还是手动创建map参数。例如下面非比较类型分类数据的例子:

1
2
3
4
5
6
7
8
9
import pandas as pd
df = pd.DataFrame({'A':['一','二','一','三','一','一','三'],
'B':['aa','bb','cc','cc','bb','aa','dd'],
'C':[1,3,5,2,4,2,1]})

df_obj= df.select_dtypes('object')
datamap = []
for col in df_obj.columns:
datamap.append({elem: index+1 for index, elem in enumerate(set(df[col]))})

数据清洗

首先通过数据筛选,将S1甄别问题1的问卷筛选出来,因为购买了彩电的用户才是我们需要分析的用户。

然后对数据进行去重,针对的是问卷编号,保证每个问卷仅出现一次。

再对处理数据中存在的缺失值,可以找到缺失值的位置,找到相应问卷进行查看并填补;若问卷上也不存在,则对数值型数据使用统计值填补,对分类型数据使用众数填补;或者少量数据可以直接删除。

最后进行数据纠错,数据的错误类型主要有两种,一种是非逻辑错误,就是在问卷调查或录入数据的时候出现差错,这需要加强调研的各个环节的质量监控;另一种是逻辑错误,例如,性别男为“1”,女为“2”,但是录入了3,这种属于逻辑错误,需要在数据编码的时候进行控制。

分析架构

用户偏好分析主要分为三个部分:

  1. 用户基本特征描述:用户的特征不同,结论分析往往不同,可以协助业务方在下结论的时候注意应用对象。
  2. 用户整体偏好分析:对于问卷中的数值数据可以使用均值分析用户整体偏好,对于非数值数值使用频数统计反映用户整体情况。
  3. 各类用户偏好分析:将用户偏好和用户基本特征做比较均值交叉分析

在此之前需要利用方差分析,检验不同用户之间是否存在显著差异,若存在,做差异对比才有意义。

实例演示

详见我在Github上的代码

分析结果解读

最后根据以上得到的各个分析结果,进行可视化图像进行分析比较,得到最终结论。

// todo: 详细的会在之后学习了数据分析经验之后再来分析一下。

个人收获

总体上学到了有几点,首先是学会了如何设计一个比较全面的问卷调查方法,需要考虑需要的各个方面,从需求开始,从分支扩展,按照需要的、可能的、与结论相关的因素进行讨论,由此编写有效的问卷;其次第一次进行编码操作,之前学会的硬编码和热编码并没有使用,所以未知其用途,在这里发现在方差分析的时候,必须使用编码参数进行调用;最后,发现python或许是万能的,但并不是最方便的,这些统计分析之类的,需要自己慢慢编写程序,而在spss中却是及其方便,由此我以后或许可以尝试,使用python进行清洗整理数据以及机器学习相关,使用spss完成统计分析,以及使用tableau实现图表可视化。

------ 本文结束------