[大数据]数据分析_基础方法

发布于 2024-06-04 | 标签: 大数据 | 16分钟 | 4639字数 | 浏览量::

数据分析，基础方法

概述

常见的数据分析方法可以分为如下几类，可根据需求使用需求进行查找选择：

分析方法分类	概述
基本描述分析	这是数据分析的基础，包括数据的收集、整理、描述和总结
差异关系研究	通常用于比较两个或多个数据集或样本之间的差异，例如通过t检验、方差分析等
相关影响关系研究	用于探究变量之间的相关性或因果关系，例如通过相关分析、回归分析等
信息浓缩及聚类研究	这涉及到数据的降维和分类，例如主成分分析（PCA）、聚类分析等
权重关系研究	这涉及到确定变量或指标之间的相对重要性，例如在构建综合评价模型时使用层次分析法（AHP）等
数据预测方法	这涉及到使用历史数据来预测未来趋势，例如时间序列分析、回归分析等
优劣决策分析	这涉及到在多个选项或方案中选择最佳的一个，例如多属性决策分析、成本效益分析等
综合评价方法	用于综合考虑多个指标或变量，给出一个综合的评分或排序，例如数据包络分析（DEA）、优劣解距离法（TOPSIS）等
问卷研究方法	这是社会科学研究中常用的数据收集方法，通过设计问卷来收集定量或定性数据
常用市场研究分析	这包括消费者行为分析、市场细分、需求预测等
常用医学数据分析	这包括临床实验数据分析、流行病学研究、生存分析等
一致性评价检验方法	用于检验数据的一致性或可靠性，例如Cronbach’s alpha系数、Krippendorff’s alpha等

基本描述分析

基本描述统计分析包括频数分析、描述分析、分类汇总；用于对收集的数据进行基本的说明。

方法	用途	概述
频数分析	用于计算定类数据的选择频数和百分比分布	针对定类数据进行分析，例如针对样本的性别、年龄、年级等人口学变量进行频数分析，了解样本分布情况。一般使用频数、百分比、饼图等形式进行描述
描述分析	用于描述定量数据的集中趋势、波动情况和分布情况	针对定量数据进行分析，常见的指标有平均值、标准差、最大值、最小值、中位数等；更深入的描述指标包括百分位数、峰度、偏度、变异系数等
分类汇总	用于交叉分析、汇总多个指标数据	用于研究不同分类时的汇总情况，输出的指标为汇总结果。比如不同区域分类项，销售额（汇总项）的差异情况

差异关系研究

差异比较是常见一类分析方法，如两组或多组均数、率、分布的差异比较。一般采用假设检验类方法进行统计分析。常用的差异关系研究方法有方差分析、t检验、卡方检验、非参数检验。

方法	用途
t检验	用于分析X定类数据（仅2类）与Y定量数据之间的差异情况
方差分析	用于进行X定类数据（2类及以上）与Y定量数据之间的差异关系研究
卡方检验	用于分析定类数据与定类数据之间的差异情况
非参数检验	方差分析与t检验均属于参数检验的范围，通常需要数据满足正态性和方差齐性才能够使用，当数据不满足正态性或方差齐性时，研究定类数据与定量数据之间的差异性可以使用非参数检验进行分析

t检验

方法	概述	举例
单样本t检验	用于分析一组数据与某个数字之间的差异情况	分析1班数学成绩与80分之间的差异(判断大家的成绩是否与平均分80分存在显著差异)
独立样本t检验	用于分析两独立样本数据之间的差异情况	分析1班和2班数学成绩的差异(1班和2班的成绩是否存在显著差异)
配对样本t检验	用于分析两配对样本数据之间的差异情况	分析两种方法测量同一批人的血压是否有差异(测试样本前后是否有显著变化)

方差分析

方法	概述	举例
单因素方差分析	自变量X为1个时使用	研究不同学历(本科、研究生、士)工资水平的差异
双因素方差分析	自变量X为2个时使用	研究不同性别，不同学历工资水平的差异
多因素方差分析	自变量X个数超过2个时使用	研究不同性别、不同学历，不同岗位工资水平的差异
事后多重分析	基于方差分析，当X的组别超过2组时，具体对比两两组别之间差异	在单因素方差分析中，具体对比本科与研究生、本科与博士研究生与博士两两之间的工资差异
协方差分析	如果研究中有干扰因素(控制变量)，使用协方差分析	研究戏肥方式对于减积效果的影响，同时将年龄设为干扰项

卡方检验

方法	概述	举例
卡方检验	定类数据与定类数据之间的差异情况	性别X和是否抽烟Y的差异关系
配对卡方	两配对定类数据之间的差异情况	实验班和对照班学生是杏考上重点大学的差异
卡方拟合优度	研究定类数据的实际比例与预期比例是否一致	性别男女的分布比例是否为50%
分层卡方	在卡方检验的基础上，进一步考虑分层项的干扰	研究是否吸烟X与是否生病Y的关系时，将性别纳入分层因素
Fisher卡方	n<40或期望频数<5时，使用Fisher卡方检验比较合适	研究是否接种疫苗两种情况下HBV感染率有无差异

非参数检验

当数据不满足正态性或方差齐性时，研究定类数据与定量数据之间的差异性可以使用非参数检验进行分析。

参数检验方法	非参数检验方法
单样本t检验	单样本Wilcoxon检验
独立样本t检验	Mann-Whitney检验
单因素方差分析	Kruskal-Wallis检验
配对样本t检验	配对Wilcoxon检验
随机区组方差分析	Friedman检验

相关影响关系研究

相关影响关系研究用于分析变量之间的关系，包括两部分内容，相关关系研究和回归影响关系研究。涉及的方法主要包括相关分析、线性回归、logistic回归及非线性回归。

方法	用途	举例
相关分析	分析定量数据或有序定类数据间的相关关系	研究学生IQ与考试分数的关系
线性回归	因变量Y为定量数据时研究X对Y的影响关系	通过收集历史交易数据，包括房屋的面积、卧室数量、建造年份和销售价格，预测未来的房价
logistic回归	因变量Y为定类数据时研究X对Y的影响关系	通过收集患者的年龄、性别、血压、胆固醇水平以及是否吸烟等数据，预测5年内心脏病发生概率
非线性回归	主要针对线性回归不再适用的影响关系研究	预测化学反应的速率与温度之间的关系（化学反应速率通常与温度之间存在指数关系）

信息浓缩及聚类分析

数据降维是对变量信息的浓缩，聚类是对个案信息的分类。

方法	概述
信息浓缩方法	可以帮助人们在不损失太多信息的情况下，将数据和信息进行简化和压缩，如从数量庞大的指标变量中提取少数几个公因子，在尽可能降低信息损失的前提下用新的公因子变量取代原始变量的信息
聚类分析	通过数据建模简化数据的一种方法,“物以类聚，人以群分”正是对聚类分析最好的诠释。它用于将抽象对象的集合，分组为由类似的对象组成的多个类

信息浓缩

方法	概述
因子分析	因子分析法通过提取公共因子来简化数据集，减少变量数量，同时保留数据的主要信息
主成分分析	主成分分析与因子分析类似都是信息浓缩常用方法
对应分析	对应分析是一种揭示类别变量之间关联结构的方法，通过二维图形展示不同类别之间的关联程度
多维尺度分析	多维尺度分析在低维空问中展示高维数据问的相似性，用于可视化和理解复杂效据集的结构

聚类分析

方法	用途	举例
K-means聚类	按样本进行聚类，对定量数据进行聚类	通过分析顾客的购买金额、购买频率和购买的产品类别，对具有相似购买模式的消费者群体进行区分
K-modes聚类	按样本进行聚类，对定类数据进行聚类	通过分析消费者购买的不同产品类别，对具有相似购买模式的消费者群体进行区分
K-prototype聚类	按样本进行聚类，对==混合型数据(定类和定量)==进行聚类	通过分析用户的年龄、性别、兴趣标签和使用频率，识别具有相似特征的用户群体
分层聚类	分层聚类是一种建立数据层次结构的聚类方法，对定量数据进行聚类	通过分析居民的收入水平、教育背景和生活习惯，城市规划师可以使用分层聚类来识别具有相似特征的社区群体

权重关系研究

权重研究是用于分析各因素或指标在综合体系中的重要程度，最终构建出指标评价体系。权重计算的方法可分为主观赋权法和客观赋权法。

方法	概述	具体方法
主观赋权法	以个人主观经验对不同指标进行赋权的方法	层次分析法，优序图法
客观赋权法	利用客观数据对不同指标进行赋权的方法	利用数据降维处理原理赋值（主成分分析法，因子分析法）利用数据熵值信息大小赋值（熵值法）利用数据的波动性或数据间相关性进行赋值（CRITIT权重，独立性权重，信息量权重）

数据预测方法

==数据预测是利用当前和历史信息（数据）进行分析、挖掘、判定，以得出对未来数据的预测。==较常见是针对时间序列数据的预测、包括ARIMA模型、指数平滑法等；或者利用灰色系统理论进行预测，如GM(1,1)模型；马尔科夫预测也比较常用。

方法	概述
ARIMA模型	最常见的时间序列预测分析方法，仅针对较大样本数据
指数平滑法	常用于数据序列较少时使用，且一般只适用于中短期预测
灰色系统理论	针对数量非常少(如仅4个)，数据完整性和可靠性较低的数据进行预测
马尔科夫预测	根据状态转移矩阵将进行数据预测，在已知目前状态（现在）的条件下，它未来的演变（将来）不依赖于它以往的演变 (过去 )

优劣决策分析

优劣决策是指在多个可行选项中，通过一定的评价标准和评估方法，选择最优或最符合目标的决策方案的过程。优劣决策隶属于综合评价分析，其分析方法通常包括TOPSIS法、熵权TOPSIS法、秩和比法和Vikor法。

方法	概述
TOPSIS法	比较评价对象与理想解之间的距离，得出评价对象的优劣程度
熵权TOPSIS法	熵值法计算权重与TOPSIS法结合进行综合评价的方法
秩和比法	通过对评价指标进行排序并赋予秩次，再加权求和得到综合评价结果
Vikor法	与TOSIS法类似，也是综合评价的一种方法

综合评价方法

综合评价是一类针对多指标进行科学决策的研究方法

方法	概述	举例
灰色关联法	用于分析系统中各因素之间的关联程度。它通过计算参考序列与比较序列之间的灰色关联度，来衡量因素间的关联性大小。	企业可以使用灰色关联法分析不同供应商的产品质量、交货时间、价格等因素，以选择最佳的供应商
模糊综合评价	模糊综合评价是一种处理不确定性问题的评价方法，它将模糊理论与层次分析法相结合，通过构建评价矩阵和权重，对多个评价指标进行综合评价	政府机构可以使用模糊综合评价方法对城市的环境质量进行评价，考虑到空气质量、水质、噪音等多个指标
数据包络分析	一种投入和产出效率优劣的研究方法	使用DEA方法评估不同银行的运营效率，考虑投入（如资本、劳动力）和产出（如贷款、存款）
耦合协调度	研究系统与系统之间相互作用和协调程度的指标	研究城市交通系统和土地利用之间的耦合协调度，以优化城市规划和交通布局
综合指数	综合指数是一种将多个指标合成为一个综合指标的方法，用于反映某一现象或问题的总体情况	将GDP、就业率、通货膨胀率等多个经济指标合成为一个综合指数，以衡量一个国家或地区的经济发展水平
DEMATEL	通过系统内各要素的逻辑关系计算各要素的重要性	使用DEMATEL方法分析供应链中的各种风险因素，如供应商可靠性、运输风险、市场需求波动等，以确定关键风险因素和制定相应的风险管理策略
ISM	梳理系统中各要素逻辑关系进而得到层次结构关系	使用ISM方法分析组织中的各个部门和职能之间的层级关系和相互影响，以优化组织结构和提高工作效率

问卷研究方法

对问卷数据资料进行研究分析是量化研究的重要内容，根据问卷题型的不同，所获得的数据类型也不同，这影响到采取何种统计方法的问题。问卷从广义上可分为普通问卷和量表问卷。

问卷分类	常用方法
普通问卷(单/多选)	频数统计、多选题分析、卡方检验、方差分析、t检验、线性回归、logistic回归
量表问卷	信度分析、效度分析、项目分析、验证性因子分析、路径分析、结构方程模型、中介效应、调节效应、有调节的中介效应分析

常用市场研究分析

市场研究是一种通过收集、分析和解释市场数据，以了解市场需求、竞争情况、消费者行为和趋势等信息，为企业制定营销策略和决策提供支持的过程。常用的方法有PSM分析、联合分析、NPS分析、KANO模型。

方法	概述
PSM分析	衡量目标潜在用户对不同价格的满意度
联合分析	了解受访者对多属性多水平产品的偏好
NPS分析	用于研究用户向其他人推进某品牌可能性的指数
KANO模型	用户需求分类和优先排序的工具

常用医学数据分析

医学数据分析中除差异性分析比较常用外，比率与风险分析、剂量分析、生存分析、重复测量方差分析、ROC曲线分析也比较常用。

方法	概述
比率与风险	优势比(OR)和相对风险度(RR)分析
剂量分析	常用于计算半数致死量LD50值
生存分析	单因素生存分析和Cox回归分析
重复测量方差	用于重复测量数据的差异性分析
ROC曲线分析	研究X对于Y的预测准确率情况

一致性评价检验方法

一致性检验的目的在于比较不同方法得到的结果是否具有一致性。常用方法有Kappa系数、Kendall协调系数、ICC组内相关系数、rwg组内评分者一致性、Bland-Altman图等。

方法	概述
Kappa系数	两种方法之间一致性检验，通常为定类数据
Kendall协调系数	多个数据关联性分析方法，定量/定序等级数据
ICC组内相关系数	多种方法之间一致性检验，定量/定类数据
rwg组内评分者一致性	多层次数据资料组内评分一致性分析
Bland-Altman图	一致性测量的可视化展示方法

参考：
毕业论文 | 超高频数据分析方法分类汇总

本文作者： 渣渣晖のBlog
本文链接： https://zhenhuizhang.github.io/post/da-shu-ju-shu-ju-fen-xi-_-ji-chu-fang-fa/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

# 大数据

[大数据]数据无量纲处理方法上一篇

[SQL]字段打乱脚本下一篇