用户偏好分析案例

本文是根据《活用数据|驱动业务的数据分析实战》中的案例进行的学习总结，主要是针对彩电用户的特征和行为，从研究调查问卷组成，以及分析问卷，来统计用户偏好。

适用于需要结合案例学习数据分析方法的初学者。

总体思路

国内某彩电企业为了摆脱价格战，提高核心竞争力，从用户入手，针对不同用户偏好，展开差异化营销。同样地，我们需要明确研究目的和研究内容。

研究目的很简单，就是开展差异化营销。差异化营销是使得企业最大限度地满足用户需求，从而提高企业的营业业绩；那么差异化营销在该企业是否可行，就需要考虑多个维度的因素，基于时间思维和结构思维进行分析，将用户偏好分为五个阶段和七个要素。

研究内容就围绕五个阶段和七个要素进行展开：

产生需求阶段：购买的原因（why）、决策时间（when）、了解程度（how much）
信息收集阶段：获取信息的渠道（where）、关注哪些信息（what）
方案比选阶段：比较时考虑的因素（what）、各因素考虑的程度（how）
购买决策阶段：最终买的是什么（what）
购后行为阶段：如何使用彩电（how）

调查问卷

根据以上的研究内容，设计一份调查问卷，来获得相应的调查数据，来进行定量分析。

问卷结果由以下几个问题组成： 1. 问卷编号 2. 是否购买彩电：S1甄别问题 3. 产生需求阶段：Q1购买原因，Q2决策时间，Q3了解程度 4. 信息收集阶段：Q4信息渠道，Q5关注信息 5. 方案比选阶段：Q6刻录功能考虑程度，Q7耗电量考虑程度，Q8上网功能考虑程度，Q9他人推荐考虑程度，Q10促销活动考虑程度，Q11感兴趣的促销活动 6. 购买决策阶段：Q12品牌，Q13价格，Q14外观，Q15规格，Q16颜色 7. 购后行为阶段：Q17安装方式，Q18摆放位置 8. 用户背景信息：A1性别，A2年龄，A3学历，A4家庭收入，A5住房面积，A6家庭成员

调研计划

完成调查问卷的创建之后，紧接着进行问卷调查，这里需要明确6个问题： * 调查方法：例如中心定点拦截访问（CIL） * 调查对象：某天之后购买过彩电的用户 * 调查地点与样本量： * 项目周期： * 项目成员及职责： * 项目经理：负责整个项目的统筹控制，业务沟通、制定方案、控制进度及质量、团队协调沟通 * 督导员：向项目经理汇报工作进展，招聘和监督访问员，对访问质量直接负责 * 访问员：负责实际访问，向督导员汇报工作进度 * 数据处理人员：调查问卷审核，数据录入，数据检查和对数据质量进行评价 * 数据分析人员：对调查和处理好的数据进行研究分析 * 报告撰写与宣讲人员：撰写分析报告并向相关领导汇报 * 项目质量与进度控制：安排跟访，保证数据真实有效性，并及时汇报和录入数据

数据处理

调查得到的数据是最原始的数据，其中可能会出现很多的问题，所以需要对数据先进行处理，主要分为四个步骤： * 数据集成：将多个数据源的数据进行合并 * 数据转换：对数据进行标准化处理 * 数据消减：对数据进行聚合和降维，减小数据规模 * 数据清洗：数据筛选、数据去重、填补缺失值和数据纠错。（本案例仅关注数据清洗）

数据编码

其中方案比选阶段的Q6-Q10数据为数值数据，可以直接进行数据分析，而其他数据均为类别数据，需要使用编码格式进行数值转换

针对不存在大小的分类数据，可以直接使用set容器去重，再使用map进行硬编码，若存在大小的，最好还是手动创建map参数。例如下面非比较类型分类数据的例子：

import pandas as pd
df = pd.DataFrame({'A':['一','二','一','三','一','一','三'],
                   'B':['aa','bb','cc','cc','bb','aa','dd'],
                   'C':[1,3,5,2,4,2,1]})

df_obj= df.select_dtypes('object')
datamap = []
for col in df_obj.columns:
    datamap.append({elem: index+1 for index, elem in enumerate(set(df[col]))})

数据清洗

首先通过数据筛选，将S1甄别问题为1的问卷筛选出来，因为购买了彩电的用户才是我们需要分析的用户。

然后对数据进行去重，针对的是问卷编号，保证每个问卷仅出现一次。

再对处理数据中存在的缺失值，可以找到缺失值的位置，找到相应问卷进行查看并填补；若问卷上也不存在，则对数值型数据使用统计值填补，对分类型数据使用众数填补；或者少量数据可以直接删除。

最后进行数据纠错，数据的错误类型主要有两种，一种是非逻辑错误，就是在问卷调查或录入数据的时候出现差错，这需要加强调研的各个环节的质量监控；另一种是逻辑错误，例如，性别男为“1”，女为“2”，但是录入了3，这种属于逻辑错误，需要在数据编码的时候进行控制。

分析架构

用户偏好分析主要分为三个部分：

用户基本特征描述：用户的特征不同，结论分析往往不同，可以协助业务方在下结论的时候注意应用对象。
用户整体偏好分析：对于问卷中的数值数据可以使用均值分析用户整体偏好，对于非数值数值使用频数统计反映用户整体情况。
各类用户偏好分析：将用户偏好和用户基本特征做比较均值或交叉分析。

在此之前需要利用方差分析，检验不同用户之间是否存在显著差异，若存在，做差异对比才有意义。

实例演示

详见我在Github上的代码

分析结果解读

最后根据以上得到的各个分析结果，进行可视化图像进行分析比较，得到最终结论。

// todo: 详细的会在之后学习了数据分析经验之后再来分析一下。

个人收获

总体上学到了有几点，首先是学会了如何设计一个比较全面的问卷调查方法，需要考虑需要的各个方面，从需求开始，从分支扩展，按照需要的、可能的、与结论相关的因素进行讨论，由此编写有效的问卷；其次第一次进行编码操作，之前学会的硬编码和热编码并没有使用，所以未知其用途，在这里发现在方差分析的时候，必须使用编码参数进行调用；最后，发现python或许是万能的，但并不是最方便的，这些统计分析之类的，需要自己慢慢编写程序，而在spss中却是及其方便，由此我以后或许可以尝试，使用python进行清洗整理数据以及机器学习相关，使用spss完成统计分析，以及使用tableau实现图表可视化。