STP分析

本文是根据《活用数据|驱动业务的数据分析实战》中的案例进行的学习总结，主要是针对彩电用户的特征和行为，从研究调查问卷组成，以及分析问卷统计用户偏好。

适用于需要结合案例学习数据分析方法的初学者。

总体思路

甲保险公司的主要经营业务是车险，为了在激烈的竞争中获胜，决定以精准营销为发展策略，针对车险目标用户开展定制服务。

研究目的是其了根据用户的偏好，对用户进行精准营销。由于个体的差异，所有的用户不可能同时喜欢一个产品，即使将全部的用户作为目标市场，也只会获得部分客户购买产品，这样反而付出了巨大的代价，却获得很小的收益。所以需要开展市场细分（Market Segmenting），寻找目标市场（Market Target），进行市场定位（Market Positioning），从而达到精准营销的目的。

研究内容主要是对客户按照不同维度进行分类，衡量用户在各个维度上的差异。主要有5种分类维度：

自然属性因素：性别、年龄、地域等；
社会特征因素：收入、职业、教育等；
行为特征因素：用户购物行为的五个阶段各个因素（用户偏好分析案例中几个方面）；
态度偏好因素：心理需求、购买动机、使用习惯、使用体验与态度倾向等；
生活状态与个性因素：客户生活方式、价值观和个性特点等。

其中前三种属于事前分类维度，这些维度表露在外，接触用户时，企业可以从中凭借经验进行分类，对企业起到验证性作用。后两种属于事后分类维度，需要对用户进行深入调研，才能进行了解，体现了用户的内在本质，需要根据事后的客户分类项目，从中对用户进行分类，对企业起到探索性作用。

调查问卷

调查问卷从以下几个方面展开：

甄别问题：是否购买车险
自然属性因素：性别、年龄、城市
社会属性因素：学历、家庭月收入、职业、汽车价格
行为特征因素：
1. 产生需求阶段：决策时间
2. 信息收集阶段：是否收集信息、从什么渠道收集信息
3. 方案比选阶段：投保渠道
4. 购买决策阶段保险公司的选择、保费金额
5. 购后行为阶段：索赔经历
态度偏好因素：一站式服务考虑程度、网上投保考虑程度、产品个性化考虑程度、选择保险公司的考虑因素、满意度
生活状态与个性因素：对自己的生活很满意、为享受而产生的浪费是必要的、买房子前要先有车、不惜金钱和时间装修房子、买衣服都买便宜的、休息时经常进行户外活动、尝试生活充满变化、喜欢独自享受安静的生活、下班后尽快回家。

调研计划

与上一篇调研计划类似，不再赘述。

数据分析架构

分析的架构按照STP分析理论展开，从市场细分、目标市场和市场定位三个方面进行。

数据分析的架构如图所示。

客户细分

首先需要确定分类维度，若选择多个维度，则需要尽量保证维度之间不存在相关性，可以使用因子分析进行处理，并进行标准化处理。

由于事先分类优于事后分类。所以选择客户生活状态的9个问题作为第一个细分维度。由于9个问题之间存在一定的相关性，会使得具有相关性的因素影响扩大，所以使用对数据进行降维。一般会采用因子分析，并得到因子类别作为最终的细分维度。

同时，客户的购买行为十分显著的区分客户购买行为，所以选择保费金额作为第二个细分维度。

由于因子类别是分类数据、保费金额是数值数据，两个因素的量纲并不相同，所以使用标准化统一量纲，使其具有可比性。
其次选择合适的细分方法。

单一维度的细分直接使用交叉分析就可以完成，直接找到客户在某个因素上的区别。

多个维度则需要使用一些机器学习的方法进行，根据是有监督问题还是无监督问题进行选择。
最后使用选择的细分方法对客户进行聚类。此处无监督的可以使用聚类分析方法进行，获得细分类别。对于聚类效果可以使用方差分析进行检验，依旧按照\(显著性<0.05\)来判断。之后给通过交叉分析和比较均值，来刻画客户在细分类别和保费金额上的区别，并给客户群体命名。

因子分析

对数据进行因子分析之前，要先检验原始因素中是否存在相关性。通过SPSS的分析-降维-因子直接进行因子分析，根据选项会得到各个计算结果。

在对话框的“描述”中选择KMO和Bartlett的球形度检验，当\(显著性<0.05\)时说明适合做因子分析。
公因子方差表明提取的因子对原始因素的解释能力。总方差解释是将\(特征值>1\)的因子作为最后的因子。
成分矩阵存储的是因子载荷，说明提取后的各个因子对原始维度的解释程度。但是可能存在多个因子对同一个原始因素都具有解释性，这与因子分析要剔除相关性冲突，所以需要进行因子旋转，使得最终因子之间的差异最大，可以在对话框的“旋转”中选择最大方差法，使得每个维度上仅有一个最大的因子载荷。
在对话框的“得分”中选择保存为变量和显示因子得分系数矩阵，利用得到的因子得分系数矩阵能够计算各个因子的得分并保存。通过转换-计算变量将4个因子转化为一个变量，即因子类别。

聚类分析

聚类分析一般有两者方法，一种是层次分析，一种迭代聚类。

层次聚类：主要思想是逐层合并，按照样本距离，将最近的样本归为一类，接着将形成的类别与较近的样本合并为一类，依次聚成一类，其形状类似于一棵树状图。
迭代聚类：最常见的是K-Means聚类，根据指定的聚类数k，随机选择k个初始点，将用户归为最近的初始点，重新计算聚类后的中心点，并再次聚类，通过不断的迭代计算中心点直至收敛，获得最后的聚类结果。

关于其特征和性能上的一些区别：

	层次聚类	迭代聚类
思路	逐层合并	不断迭代
类别数	未知，得到树状图进行判断	需要指定
计算速度	反复计算距离，大样本或多变量时候较慢	计算量小，常用于处理大样本
聚类对象	记录或变量	仅记录
数据类型	连续变量或分类变量	连续变量

目标客户选择

这部分和上一节内容类似，主要分为市场吸引力和自身竞争力两部分来考虑。

首先选择衡量客户吸引力和企业竞争力的指标，作为选择客户的标准。通过内部讨论，决定使用客户规模和保费金额来衡量客户吸引力，使用市场份额指标衡量企业竞争力。
其次根据各类细分客户在这些指标上的表现，计算各类客户得分。使用频数统计细分类别获得客户规模，以及均值分析获得保费金额在细分类别上的均值，得分由客户吸引力和企业竞争力加权计算得到。
最后使用矩阵分析的方法选择企业目标客户。根据获得的得分绘制散点图，形成波士顿矩阵。

目标客户定位

确定目标客户之后，需要找出目标客户的特征，以及该目标客户对哪种产品具有需求。需要进行目标客户特征描述和目标客户需求定位。

目标客户的特征描述：首先利用方差分析判断目标客户与其他客户在哪些方面具有显著差异，再将具有差异的因素利用SPSS中的分析-降维-最优标度获得特征上的具体差异。
目标客户需求定位：同样先进行方差分析判断哪些方面具有显著差异，这些分类数据可以使用交叉表来描述具体差异。当得到用户不满意的结论时，需要进一步挖掘用户哪里不满意，进行深入分析。

个人收获

通过