统计学方法 - 随笔分类 - 萧飞IDO

典型关联分析（Canonical Correlation Analysis）

摘要：典型关联分析(Canonical Correlation Analysis，以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据，第一组是人身高和体重的数据，第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢？CCA可以帮助我们分析这个问题。 CCA的阅读全文

posted @ 2020-03-13 15:39 萧飞IDO 阅读(832) 评论(0) 推荐(0)

KS检验详细介绍

摘要：本文参考：https://zhuanlan.zhihu.com/p/29399126（详细参考该链接，本文只是记录，以备后续查看） 6. 例子 1 对一台设备进行寿命检验，记录10次无故障工作时间，并按照从小到大的次序排列如下：（单位小时） 420 500 920 1380 1510 1650 17 阅读全文

posted @ 2020-03-09 14:29 萧飞IDO 阅读(11473) 评论(0) 推荐(1)

机器学习：基于sklearn的AUC的计算原理

摘要：AUC原理一、AUC起源 AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多，例如：大约10年前在 machine learning文献中一统天下的标准：分类精度；在信息检索(IR)领域中常用的recall和precision，等等。其实，度量反应了人们对” 好”的分类结果的追求，同阅读全文

posted @ 2019-12-06 21:00 萧飞IDO 阅读(3196) 评论(0) 推荐(0)

机器学习：特征选择方法简介

摘要：特征选择是指在众多特征中选择有意义的特征，采用机器学习算法和模型进行训练。特征选择有三个目的：可解释性不仅让我们对模型效果的稳定性有更多把握，也能为业务运营等工作提供指引和决策支持。特征的增多会大大提高模型的搜索空间，大多数模型需要的样本数目随着特征数量的增加而显著增加，特征的增加虽然能更好地阅读全文

posted @ 2019-12-02 13:50 萧飞IDO 阅读(1016) 评论(0) 推荐(0)

机器学习（一）：模型评估指标

摘要：在机器学习领域通常会根据实际的业务场景拟定相应的不同的业务指标，针对不同机器学习问题如回归、分类、排序，其评估指标也会不同。一、下面介绍常见的一些概念表 1 常见的二分类混淆矩阵从这个表格中可以引出一些其它的评价指标： - ACC：classification accuracy，描述分类器的分阅读全文

posted @ 2019-11-29 09:53 萧飞IDO 阅读(1000) 评论(0) 推荐(0)

机器学习（二）-信息熵，条件熵，信息增益，信息增益比，基尼系数

摘要：一、信息熵的简介 2.1 信息的概念信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言，如果待分类的事物集合可以划分为多个类别当中，则第k类的信息可以定义如下： 2.2 信息熵概念信息熵是用来度量不确定性，当熵越大，k的不确定性越大，反之越小。假定当前样本集合D中第k类样本所占的比例为阅读全文

posted @ 2019-11-28 10:39 萧飞IDO 阅读(5358) 评论(0) 推荐(1)

机器学习之评价准则RoC与PR

摘要：前言在机器学习的算法评估中，尤其是分类算法评估中，我们经常听到精确率(precision)与召回率(recall)，RoC曲线与PR曲线这些概念，那这些概念到底有什么用处呢？ TP, FP, TN, FN 1. True Positives,TP：预测为正样本，实际也为正样本的特征数 2. Fal 阅读全文

posted @ 2018-03-09 11:26 萧飞IDO 阅读(851) 评论(0) 推荐(0)

诊断实验评估指标-灵敏度（sensitivity）特异度（specificity）准确度（accuracy）

摘要：在临床上经常会用到诊断试验的手段，用于疾病诊断、病人随访或疗效监测等。判断某一诊断试验的结果是否真实、可靠，是否具有实用性，从而确定合理的医疗决策。一项诊断试验需要具备能正确的鉴别患病和未患病的能力，以反映患病实际情况的准确程度，这其中涉及到几个重要概念：灵敏度（sensitivity）、特异度（阅读全文

posted @ 2018-01-27 16:15 萧飞IDO 阅读(62424) 评论(0) 推荐(0)

系统评测指标：准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F-Score

摘要：示例：假如某个班级有男生80人,女生20人,共计100人.目标是找出所有女生. 现在某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了. 作为评估者的你需要来评估(evaluation)下他的工作。一、概念 1.1 准确率（Accurary）：对于给定的测试数据集，阅读全文

posted @ 2017-08-15 11:06 萧飞IDO 阅读(1520) 评论(0) 推荐(0)

双样本T检验-P-T和T-T检验

摘要：双样本t检验2 Sample T-TEST和成对t检验Paired Test的意思和区别成对t检验Paired Test是对来自同一总体的样本，在不同条件影响下获取的2组样本进行分析，以评价不同条件是否对其有显著影响。不同条件可以是不同存放环境、不同的测量系统等。双样本t检验2 Sample T-T 阅读全文

posted @ 2017-04-20 21:09 萧飞IDO 阅读(2573) 评论(0) 推荐(0)

萧飞IDO

随笔分类 - 统计学方法

典型关联分析（Canonical Correlation Analysis）

KS检验详细介绍

机器学习：基于sklearn的AUC的计算原理

机器学习：特征选择方法简介

机器学习（一）：模型评估指标

机器学习（二）-信息熵，条件熵，信息增益，信息增益比，基尼系数

相关系数

机器学习之评价准则RoC与PR

诊断实验评估指标-灵敏度（sensitivity）特异度（specificity）准确度（accuracy）

系统评测指标：准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F-Score

双样本T检验-P-T和T-T检验

导航

公告

统计

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论