有序概率单位回归:适用因变量是多水平有序变量的时候,例如学历。自变量无类型要求。
有序概率单位回归其实就是通过权重将自变量映射成一个连续值,也就是把预测的因变量连续化。预测的因变量落在某个阈值区间对应一个离散的因变量水平:
模型输出:在X为特定取值时,Y的不同取值对应概率(伊普西隆(类似残差)服从标准正态分布;phi符号代表标准正态分布的累计分布函数):
然后用极大似然估计求参,求β和阈值:
最大化对数似然:
Zij, which equals 1 if yi = j and 0 otherwise
简单讨论一下参数意义:假设一个情景,X取0/1,1代表无人看管0代表有人看管,Y代表考生的作弊程度。如果β是正的,说明无人看管是系统性的让考试作弊的因素,而如果作弊程度越高对应的阈值区间越大,说明对于无人看管的学生,要是不作弊的话需要更低的作弊欲望或者更高的克制力,对应更低的伊普西隆: