数据分析

商业智能(Business Intelligence,BI)、数据仓库(Data Warehouse,DW)和数据挖掘(Data Mining,DM)三者之间的关系:

数据仓库是一个集成、主题化、稳定的数据存储区域,为BI和DM提供数据支持。BI通过可视化分析和数据报表等方式,将数据转化为有价值的信息,帮助企业管理层和决策者快速准确地获得洞察,支持企业决策。而DM是从数据中自动提取模式、趋势和关系的过程,用于发现数据的隐含规律和预测未来走向

数据采集 -> 数据挖掘 -> 数据可视化

方法论

分析方法

数据指标体系

数据指标:将某个事件量化并形成数值来衡量目标

数据指标可以被用来选出判断标准,并给出最终结论。数据指标体系是从特定角度分析业务得到数据指标

实现数据指标体系,根据优选级选择重要的数据指标,保证效率,在迭代中反馈与修正,另外,指标服务于业务,当业务发生变化,指标体系也会收到变动的影响

指标体系类型

体系搭建

最重要的是了解业务,整个流程,盈利模式,以及实现这个业务流程的各个组织机构,串连各个组织机构,发现数据指标

指标分类

指标拆解

  1. 维度拆分:如区域、标签、时间、业务情况...
  2. 场景拆分:总指标 = 各场景下指标相加
  3. 关系拆分:一个指标可以由其他指标推导得到

检验

常见问题

  1. 使用的指标并不能指导业务行动
  2. 指标没有判断标准,不知道好坏
  3. 对于抽象的指标,进行了不合适的拆分,瞎拆分子指标
  4. 没有按照业务流程构造指标,只是堆砌数据,不能指导业务
  5. 没有根据业务选维度,无脑加维度

流量分析

流量分析是分析如何获取如何用户,哪里获取用户的一个数据分析活动,其最终目是为了获取商业价值,提升用户获取的 ROI,占领市场

做流量分析之前,首先需要明确的是公司的业务面向的用户群体,2C还是2B,大B还是小B,产品形态是什么,网站app还是咨询服务,所在哪个行业,游戏还是电商,是如何盈利的,是免费增值还是会员制还是流量变现

流量渠道

流量成本

= 时间成本 + 资源成本 + 人力成本 + 资金成本

分析角度

  1. 观察流量规律,便于活动安排、服务调整
  2. 发现流量异常,分析异常原因并及时调整
  3. 观察流量结构,分析其合理性,并作出调整
  4. 追踪流量情况,衡量活动或者调整效果

分析的问题

  1. 用户的来源
  2. 用户的诉求
  3. 不同来源的用户,表现有什么差异
  4. 如何设计流量入口以提升 ROI

关注指标

  1. 各渠道新增用户量、人均获客成本
  2. 用户产品的使用情况
  3. 支出收入相关指标

分析方法

产品分析

主要分为功能分析(行为流程、业务流程)与交互视觉分析,分析产品以优化业务,提升用户使用体验。在进行产品分析时,首先需要明确目的,根据目的确定主要问题,其中最主要的是明白功能为谁设计,他们何时用,怎么用

行为流程是用户侧的行为,业务流程是产品侧提供的功能,所以可以从行为流程与业务流程分析出需要关注的问题,如产品侧如何实现功能,异常情况如何处理等

当进行对以上流程的分析之后,就能更透彻地理解业务全流程,并在此基础上,梳理出关键流程、主流程

关注的问题

分析内容

常见误区

用户增长分析

做用户增长分析的目的是,提升用户的数量,用较少成本提升数量,同时进行精细化运营,提升用户价值,实现高质量发展

一种模型是 AARRR,通过数据分析这个模型各个阶段的关键指标,发现问题、解决问题

用户行为分析

用户行为分析是从各个维度去看用户对于产品在某些指标上的反馈,通过对用户行为的分析是实现数据驱动产品、商业决策的重要依据

行为事件分析

行为事件分析方法主要用于研究某行为事件的发生对产品的影响以及影响程度

对某一具体行为,分析导致该行为的原因,或针对现象进行解释可能出现该现象的行为

页面点击分析

点击分析被应用于显示页面区域中不同元素点击密度的图示,可以精准评估用户与产品交互背后的深层关系,实现产品的跳转路径分析,完成产品页面之间的深层次的关系需求挖掘与其他分析模型配合,全面视角探索数据价值直观的对比和分析用户在页面的聚焦度、页面浏览次数和人数以及页面内各个可点击元素的百分比

行为路径分析

通过分析行为路径,发现潜在的行为路径与期望路径之间的偏差,及时优化偏差,缩短路径

用户留存分析

检验用户留存质量,一般是在各类活动中相关分析

漏斗模型分析

根据用户的导入、留存的一个个环节,分析每层漏斗的转化情况,发现潜在问题

健康度分析

基于用户行为数据综合考虑的核心指标,体现产品的运营情况,为产品的发展进行预警

用户标签体系

用户标签体系是构建用户画像的一个重要手段

可从如下角度进行对用户的标签构建:

运营分析

运营活动的目标:品牌 => 用户数量质量 => 纯收入

用户运营

数据分析在用户运营的作用是选取评估指标、进行数据处理、构建模型得到分析报告

数据分析思维

均值

平均值容易受到极端值的影响,只有在数据呈均匀分布或者正态分布的情况下才会有意义

辛普森悖论指出,有的时候,在分组比较中占优势的一方,在总评中反而可能是失势的一方,平均值需要看它的分组构成,而不是简单地用平均值去代表所有的整体

大数定律与小数陷阱

期望值

反映在大数定律下多次执行某件事情之后,得到的一个最可能的收益结果

随机对照试验

通过多组随机试验来验证一个理论和假设是否真实,AB测试就是一种随机对照试验

直方图与幂分布

从直方图体现出来呈指数下降或者上升的分布形式,叫做“幂律分布”

帕累托法则:二八定律

拉普拉斯分布

正态分布相反,这种分布从左到右,斜率先缓慢增大再快速增大,到达最高点后变为负值继续先快速减小,最后再缓慢地减小

拉普拉斯分布

这种分布在资源导向的场景比较多见,比如股市、房价,越塔尖的个体越具有资源吸附能力

散点图与相关性

一些散点图的分布规律:

误区:

标准差

代表一组数值和平均值相比分散开来的程度。也就是说,标准差大代表大部分的数值和平均值差异比较大,标准差小代表这组数字比较接近平均值

标准误差代表一种推论的估计,它反映的是多次抽样当中样本均值之间的离散程度

数据抽样

小数据抽样:

  1. 简单随机抽样:从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每一个样本被抽中的概率相同
  2. 系统抽样:依据一定的抽样距离,从整体中抽取样本,即限定每轮抽样的数据范围都不同
  3. 分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结构
  4. 整群抽样:将总体中若干个单位合并为组(这样的组被称为群),抽样时直接抽取群,然后对所选群中的所有单位实施调查

分层抽样是先分层再从各层抽样本,整群抽样是先分群再抽一个群调查

大数据抽样:

  1. 蓄水池算法
  2. 过采样
  3. 欠采样
public class ReservoirSampling {    private int[] ALL; // 整体的水池中的数据    private final int N = 100000; // 整体数据规模    private final int K = 1000; // 水池规模    private Random random = new Random();    public void setUp() throws Exception {        ALL = new int[N];        for (int i = 0; i < N; i++) {            ALL[i] = i;        }    }    private int[] Sampling(int K) {        int[] Pool = new int[K];        for (int i = 0; i < K; i++) { // 前面K条数据直接进入水池            Pool[i] = ALL[i];        }        for (int i = K; i < N; i++) { // K + 1个元素开始进行概率采样            int r = random.nextInt(i + 1);  //这就是K/N的概率            if (r < K) {                Pool[r] = ALL[i]; //如果被选中了,那么这条数据就被从蓄水池中挤出来,新数据进去            }        }        return Pool;    }}

过采样、欠采样

指数

指数 = 变量值/标准值 x 100

指数公式本身很简单,关键在于指数公式的背后,要如何去制定一个能够保持指数有效性的规则

从股市上证沪深指数,到互联网用户忠诚指数,都需要定义解释一系列规则来创建这样的一个指数

要制定某个指数,比方说设定 KPI 的时候,我们要注意不要光看公式的建立,而是要把一系列定义调整的制度算法规定出来

回归

两个变量之间有回归逻辑,不代表着两个变量之间有因果逻辑

逻辑回归

马尔可夫链

用数据说话

问题确定

和利益无关的问题都不值得做数据分析,值得的一个是带来更多的收入,一个是帮着节约成本

提出问题 -> 提出理想 -> 结构化分析

数据采集

分析方法

  1. 趋势分析法:找到某一个类型的数据之后,捕捉这个数据一个时间段以内的变化。通过这些数据变化,我们去知道曾经有哪些变化、对结果数据会有哪些影响,这样可以找到其中关键的问题和原因
  2. 快照扩展法:截取某个时点的情况,然后通过下钻的方式来扩展这个指标的分布情况。我们会看在这个时点里面我们各部分对于整体的占比和影响程度
  3. 衍生指标法:进一步进行数据的加工,制造出一些衍生指标来拨开迷雾,衍生指标就像几何当中的辅助线一样,会帮助我们看到更有意义的数据
  4. 描述性分析:通过统计分析、频率分析总结数据的基本特征、理解数据的分布情况
  5. 诊断性分析:分析变量之间的相关性、以及因果分析
  6. 预测性分析:回归分析、时间序列预测、机器学习等方法

数据揭示

实践

改变和创新的扩散过程是要有一个周期的,参考埃弗雷特·罗杰斯(E.M.Rogers)提出创新扩散模型

观点的认知到具体落实到行动,理性行为理论:一件事,从认知到行动意图,不但是有主观的个体认知,同时客观的世界也是一种规范作用

数据可视化

  1. **分布**:

    • 数据可视化可以通过直方图、密度图或箱线图等方式展示数据的分布情况,帮助用户理解数据的集中程度、分散程度和分布形态。
  2. **时间相关**:

    • 时间序列图、时间轴等可视化方式可以展示数据随时间变化的趋势和周期性,帮助用户分析时间相关的数据模式和趋势。
  3. **局部/整体**:

    • 数据可视化可以通过缩放和局部放大的交互功能,同时展示数据的整体趋势和局部细节,帮助用户全面理解数据。
  4. **偏差**:

    • 偏差图、水平线图等可视化方式可以展示数据相对于基准值或平均值的偏差情况,帮助用户发现数据异常或变化趋势。
  5. **相关性**:

    • 散点图、热力图等可视化方式可以展示不同变量之间的相关性,帮助用户理解变量之间的关系和影响。
  6. **排名**:

    • 条形图、饼图等可视化方式可以展示数据的排名情况,帮助用户了解数据的重要性和优先级。
  7. **量级**:

    • 对数轴图、面积图等可视化方式可以展示数据的量级关系,帮助用户比较不同数据之间的大小差异。
  8. **地图**:

    • 地图可视化可以展示地理位置数据的分布和变化情况,帮助用户理解地域之间的差异和分布规律。
  9. **流动**:

    • 流程图、动态图等可视化方式可以展示数据流动的过程和路径,帮助用户追踪和分析数据流动的动态变化。

数学模型

对现实世界的一个特定对象,为了一个特定目的,根据特有的内在规律,做出一些必要的简化假设,运用适当的数学工具,得到的一个数学结构

stateDiagram-v2    模型准备 --> 模型假设    模型假设 --> 模型求解    模型求解 --> 模型分析    模型分析 --> 模型检验    模型检验 --> 模型假设    模型检验 --> 模型应用

业务模型

分析方法:方差、对比、描述统计

自定义模型:数据指标、等级模型、业务维度模型

算法模型

经营分析

经营分析是通过不同经营指标分析了解现状,剖析现状发生的原因并预测业务未来发展趋势

数据分析报告

报告是分析数据完成的结果的一个展示,它的价值在于解决问题

面向对象:

报告种类

方法论

注意事项

1、要有一个好的框架2、每个分析都有结论,而且结论一定要明确3、分析结论不要太多要精4、分析结论一定要基于紧密严禁的数据分析推导过程5、好的分析要有很强的可读性6、数据分析报告尽量图表化7、好的分析报告一定要有逻辑性8、好的分析一定是出自于了解产品的基础上的和可靠的数据源9、好的分析报告一定要有解决方案和建议方案10、不要害怕或回避“不良结论”、不要创造太多难懂的名词