数据科学的四种参数估计方法

摘 要 文章从概率、统计这两大基本概念入手,通过构造一个基本问题,利用四种参数的估计方法及其思路分别对问题进行分析与解答,从而厘清四种方法各自的特征以及之间的差异之处。
关键词 极大似然估计 最大后验估计 贝叶斯估计 最小二乘估计

1. 什么是概率?

1.1 概率与统计
“概率”和“统计”总是形影不离,其联系紧密但也有所区别。
(一)区别
用通俗语言来理解
“概率”为给定条件,对未来进行推理预测;“统计”为回顾过去,进行归纳总结溯源。
用相对专业的语言来总结:
概率研究的是在给定条件(已知模型和参数)下,对要发生的事件可能性(新输入数据)的预测;
统计研究的是在给定数据(训练数据)下,对数据生成方式(模型和参数)的归纳总结。
举例说明:
概率研究的是,已知一个透明盒子里放着a个红球b个白球,计算下一个摸出来的球是红球的可能性;
而统计研究的是,装球盒子非透明,内部信息不知的情况下, 只看到每次摸出来球的颜色情况,从而推断该盒子的内部信息,如红白球的比例。
(二)联系
收集到数据后,为了做出统计推断,是需要建立一个数学数据模型的,这个模型一般就是数据的概率分布,而概率分布就是概率论的研究内容,因此说,概率论是统计学的数学理论基础,统计学是对概率论的应用。

1.2 两大学派
我们在上述提到,“概率”最终研究的是事件的“可能性”,而在现代统计学中,对于“可能性”的探讨有两大不同学派:频率学派和贝叶斯学派。
频率学派从“自然”的角度出发,试图直接为事件本身建模,他们认为世界是确定的,有一个本体,并且有一个不变的真值,我们的目标就是要找到这个真值或真值所在的范围。
贝叶斯学派并不从试图刻画事件本身,而是从观察者角度出发。他们并不试图说明“事件本身是随机的”,或者“世界的本体带有某种随机性”,而是对世界先有一个预判,通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
我们在目前学习中遇到的贝叶斯流派理论是贝叶斯公式:P(A│B)=(P(B│A)P(A))/(P(B│A)P(A)+P(B│A ̅ )P(A ̅)),贝叶斯公式其实是在描述“你有多大把握能确认相信一件证据?“
上述公式可理解为,我们为了确认“事件结果B发生的原因是A造成的“这件事,要从引起事件B结果发生的所有原因中算“A发生并造成B”的占比。
其中,P(B│A)为后验概率,P(A)为先验概率。我们为了确认是否真的是A造成B,要考虑A事件本身发生的概率如何,若P(A)很小,P(B│A) P(A)也很小,在其余情况确定的情况下,P(A│B)不会很大,即我们并没有很大把握可以确认相信这一证据。
简单说,频率派认为事件发生的“可能性”是客观的,可通过不停观察重复事件的结果推断;贝叶斯派认为“可能性”是一种主观判断,通过不停接受新信息而更新。二者看似矛盾,但都是对“可能性”的合理建模。

1.3 概率和似然
现实生活中我们经常拿抛硬币作为公平选择的一种方式,在一般认知内,硬币出现“花”和“字”的情况是差不多的。我们把硬币出现“花”面的情况称为硬币的参数。按照上述,已知硬币的参数去推断抛硬币的各种情况的可能性,就叫做“概率”。
但是假设抛100次硬币,每次出现的都是“花”,在此情况下,我们似乎认为硬币的参数是不公平的。以上这种通过事实反过来猜测硬币的情况,即为“似然”。
综上,概率是已知参数,对结果可能性的预测。似然是已知结果,对参数是某个值的可能性预测。
对于函数P(x|θ),x表示某一个具体的数据;θ表示模型的参数。从不同的观测角度来看可以分为以下两种情况:
①概率函数:θ已知且不变,x是变量,表示不同x出现的概率;
②似然函数:x已知且不变,θ是变量,表示同一个x在不同θ下出现的概率。
这种理解方式可以类比xy,若x已知,2x即为指数函数;若y已知,x^2则理解为二次函数。

2.四种参数估计方法

我们不妨利用一个简单的问题来介绍这四种参数估计方法:
以抛硬币为例,假设我们有一枚硬币,现在要估计其正面朝上的概率θ;统计问题离不开数据,故进行10次实验(独立同分布,i.i.d.),将硬币抛10次,得到一组数据x_0情况为:(反正正正正反正正正反)。
2.1 极大似然估计
最大似然估计,Maximum Likelihood Estimation,也叫极大似然估计。核心思想是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值θ。最大似然估计是频率学派的代表。
上述问题中,我们要求的模型参数θ指:正面朝上的概率,其似然函数写为f(x_0,θ)=θ^7 〖(1-θ)〗^3,最大似然估计顾名思义要最大化上述函数,可根据图1得出,在θ=0.7时,似然函数取最大值,此时已经完成了最大似然估计。
在这里插入图片描述

根据结果,我们认为正面朝上的概率为0.7,但是以我们的常识来判断硬币通常是均匀的,而这个常识在此处并不考虑。最大似然估计只关注当前的样本,认为当前发生的事件是概率最大的事件,只关注当前发生的事情,不考虑事情的先验情况。

2.2 最大后验估计
最大似然估计是求θ,使似然函数P(x_0│θ)最大;认为此时的θ是最好的θ,此时最大似然估计是将θ看作固定的未知值。最大后验概率估计认为θ是一个随机变量,θ具有某种概率分布,称为先验分布,求解时除了考虑P(x_0│θ)之外,还要考虑其先验分布P(θ),此时要最大化的函数是P(x_0│θ) P(θ)。此处用到了贝叶斯流派的思想。
在以上问题描述中,x_0的先验分布P(x)是通过实验得出,看作是固定值。(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P(x_0)=n/100总之,这是一个可以由数据集得到的值)。因此我们只考虑贝叶斯公式等号右边的分子部分P(x_0│θ) P(θ)即可,又因P(θ│x_0 )为后验概率,这也即“最大后验概率估计“名称由来。
对于投硬币的例子来看,我们认为(“先验地知道”)θ取0.5的概率很大,取其他值的概率小一些。假设P(θ)用μ=0.5,σ^2=0.1的正态分布来描述,则P(x_0│θ) P(θ)的函数图像如图2所示:
在这里插入图片描述

此时函数取最大值时,θ取值已向左偏移,不再是0.7。由此可见,在最大后验概率估计中,θ的估计值与θ的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误,则会导致估计的参数值偏离实际的参数值。
同时我们也可以得出一个结论,当先验分布均匀时,MAP估计与MLE相等。如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior ),通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法。随着数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。

2.3 贝叶斯估计
贝叶斯估计是最大后验估计的进一步扩展,贝叶斯估计同样假定是θ一个随机变量并估计θ的分布,但在贝叶斯估计中,x_0的先验分布P(x)是不可忽略的。
现在不要求后验概率最大,重点放在P(x),即观察到的x的概率。一般来说,用全概率公式可以求得:P(x)=∫▒〖P(x_0│θ) P(θ)dθ〗
贝叶斯估计要解决得不是如何估计参数,而是用来估计新测量数据出现的概率,对于新出现的数据x ̃:
P(x ̃│X)=∫_θ▒〖P(x ̃│θ)P(θ│X)dθ=〗 ∫_θ▒〖P(x ̃│θ) (P(X│θ))/(P(x)) dθ〗【2】

2.4 最小二乘估计
最大似然法MLE,是从概率统计的角度处理最优化问题,核心在于把要求的模型假设为一种概率分布。而最小二乘法,它相比于概率的角度更直观,更具体,但它同样可以从概率的角度去解释。它的特点是使用平方损失来定义误差,而这个看似合理的前提其实是假设了误差是服从高斯分布的,即输出y服从高斯分布。所以最小二乘可以看作是极大似然的一种特例。这两种方法都是经验风险最小化。
而从结构风险最小化角度,在数值计算方面,采用的是带正则项的最小二乘法,即在平方损失函数后,再加上一项正则项;概率统计角度的结构风险最小化即最大后验估计MAP。
简单来说,最小二乘估计法的实质就是找到一个估计值,使得实际值与估计值之间的距离越小越好,并且是用实际值与估计值之间差值的平方来衡量这种距离。

3.总结

数据科学的参数估计方法有极大似然估计、最大后验估计、贝叶斯估计、最小二乘估计。通过以上的探讨,我们可以根据不同情况采取不同的估计方法。
欢迎大家加我微信学习讨论
在这里插入图片描述

热门文章

暂无图片
编程学习 ·

exe4j详细使用教程(附下载安装链接)

一、exe4j介绍 ​ exe4j是一个帮助你集成Java应用程序到Windows操作环境的java可执行文件生成工具,无论这些应用是用于服务器,还是图形用户界面(GUI)或命令行的应用程序。如果你想在任务管理器中及Windows XP分组的用户友好任务栏…
暂无图片
编程学习 ·

AUTOSAR从入门到精通100讲(126)-浅谈车载充电系统通信方案

01 引言 本文深入研究车载充电系统策略,设计出一套基于电动汽车电池管理系统与车载充电机的CAN通信协议,可供电动汽车设计人员参考借鉴。 02 电动汽车充电系统通讯网络 电动汽车整车控制系统中采用的是CAN总线通信方式,由一个整车内部高速CAN网络、内部低速CAN网络和一个充电…
暂无图片
编程学习 ·

CMake(九):生成器表达式

当运行CMake时,开发人员倾向于认为它是一个简单的步骤,需要读取项目的CMakeLists.txt文件,并生成相关的特定于生成器的项目文件集(例如Visual Studio解决方案和项目文件,Xcode项目,Unix Makefiles或Ninja输入文件)。然…
暂无图片
编程学习 ·

47.第十章 网络协议和管理配置 -- 网络配置(八)

4.3.3 route 命令 路由表管理命令 路由表主要构成: Destination: 目标网络ID,表示可以到达的目标网络ID,0.0.0.0/0 表示所有未知网络,又称为默认路由,优先级最低Genmask:目标网络对应的netmaskIface: 到达对应网络,应该从当前主机哪个网卡发送出来Gateway: 到达非直连的网络,…
暂无图片
编程学习 ·

元宇宙技术基础

请看图: 1、通过AR、VR等交互技术提升游戏的沉浸感 回顾游戏的发展历程,沉浸感的提升一直是技术突破的主要方向。从《愤怒的小鸟》到CSGO,游戏建模方式从2D到3D的提升使游戏中的物体呈现立体感。玩家在游戏中可以只有切换视角,进而提升沉浸…
暂无图片
编程学习 ·

flink的伪分布式搭建

一 flink的伪分布式搭建 1.1 执行架构图 1.Flink程序需要提交给 Job Client2.Job Client将作业提交给 Job Manager3.Job Manager负责协调资源分配和作业执行。 资源分配完成后,任务将提交给相应的 Task Manage。4.Task Manager启动一个线程以开始执行。Task Manage…
暂无图片
编程学习 ·

十进制正整数与二进制字符串的转换(C++)

Function one: //十进制数字转成二进制字符串 string Binary(int x) {string s "";while(x){if(x % 2 0) s 0 s;else s 1 s;x / 2;}return s; } Function two: //二进制字符串变为十进制数字 int Decimal(string s) {int num 0, …
暂无图片
编程学习 ·

[含lw+源码等]微信小程序校园辩论管理平台+后台管理系统[包运行成功]Java毕业设计计算机毕设

项目功能简介: 《微信小程序校园辩论管理平台后台管理系统》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序做的辩论管理前台和Java做的后台管理系统: 微信小程序——辩论管理前台涉及技术:WXML 和 WXS…
暂无图片
编程学习 ·

树莓派驱动DHT11温湿度传感器

1,直接使用python库 代码如下 import RPi.GPIO as GPIO import dht11 import time import datetimeGPIO.setwarnings(True) GPIO.setmode(GPIO.BCM)instance dht11.DHT11(pin14)try:while True:result instance.read()if result.is_valid():print(ok)print(&quo…
暂无图片
编程学习 ·

ELK简介

ELK简介 ELK是三个开源软件的缩写,Elasticsearch、Logstash、Kibana。它们都是开源软件。不过现在还新增了一个 Beats,它是一个轻量级的日志收集处理工具(Agent),Beats 占用资源少,适合于在各个服务器上搜集日志后传输给 Logstas…
暂无图片
编程学习 ·

Linux 基础

通常大数据框架都部署在 Linux 服务器上,所以需要具备一定的 Linux 知识。Linux 书籍当中比较著名的是 《鸟哥私房菜》系列,这个系列很全面也很经典。但如果你希望能够快速地入门,这里推荐《Linux 就该这么学》,其网站上有免费的电…
暂无图片
编程学习 ·

Windows2022 无线网卡装不上驱动

想来 Windows2022 和 windows10/11 的驱动应该差不多通用的,但是死活装不上呢? 搜一下,有人提到 “默认安装时‘无线LAN服务’是关闭的,如果需要开启,只需要在“添加角色和功能”中,选择开启“无线LAN服务…
暂无图片
编程学习 ·

【嵌入式面试宝典】版本控制工具Git常用命令总结

目录 创建仓库 查看信息 版本回退 版本检出 远程库 Git 创建仓库 git initgit add <file> 可反复多次使用&#xff0c;添加多个文件git commit -m <message> 查看信息 git status 仓库当前的状态git diff 差异对比git log 历史记录&#xff0c;提交日志--pret…
暂无图片
编程学习 ·

用Postman生成测试报告

newman newman是一款基于nodejs开发的可以运行postman脚本的工具&#xff0c;使用Newman&#xff0c;可以直接从命令运行和测试postman集合。 安装nodejs 下载地址&#xff1a;https://nodejs.org/en/download/ 选择自己系统相对应的版本内容进行下载&#xff0c;然后傻瓜式安…
暂无图片
编程学习 ·

Java面向对象之多态、向上转型和向下转型

文章目录前言一、多态二、引用类型之间的转换Ⅰ.向上转型Ⅱ.向下转型总结前言 今天继续Java面向对象的学习&#xff0c;学习面向对象的第三大特征&#xff1a;多态&#xff0c;了解多态的意义&#xff0c;以及两种引用类型之间的转换&#xff1a;向上转型、向下转型。  希望能…