学长教你论文实证(17):Winsor2 处理异常值 缩尾 VS 截尾

发布网友 发布时间:2024-10-23 17:41

我来回答

1个回答

热心网友 时间:2024-11-06 07:25

异常值处理:Winsor2 缩尾 VS 截尾

1. 异常值(离群值)

在回归分析中,如果数据中存在异常值,可能会对回归结果产生重大影响,甚至扭曲真实结果。简单来说,在计算平均分数时,可能会去掉最高分和最低分;在计算一群人的平均身高时,会去掉超级高的人。

在回归中,几个异常值往往可能导致结果不真实,因此,在连续变量回归之前,有必要先检查异常值,多数实证文章在回归之前,会先将连续变量进行缩尾或截尾处理。

本文介绍一个很好用的外部命令——winsor2

2. winsor2

2.1 winsor2 的简介

winsor2 是由连玉君老师编写的 Stata 外部命令,能够非常方便地对连续变量进行缩尾或截尾处理。

2.2 winsor2 的使用

安装缩尾命令winsor2,样本数据足够多时为了剔除一些极端值对研究的影响,一般会对连续变量进行缩尾处理(Winsor2)。通常在1%和99%分位做极端值处理,winsor2默认的是双侧缩尾。

01缩尾

实际运用到数据分析上,对price-gear_ratio等变量进行上下1%缩尾处理,直接替换,不产生新变量。代码如下,若如下图显示,则缩尾成功

若结果如下图显示,则缩尾成功

其中,winsor2 后面跟着的是要缩尾的变量,cut(1 99) 表示将 wage 变量最小和最大的 1% 的值进行缩尾处理。所谓缩尾,就是将小于1% 的值统一替换成 1% 的值,大于99% 的值统一替换成 99% 的值。 默认情况下,winsor2 在缩尾后自动在旧变量名后加上 **"_w"**,即生成缩尾后的新变量 wage_w。如果希望缩尾后直接替换掉旧变量,而不生成新变量,则加上 replace:

02截尾

这样一来,就是所有位于 wage 最低1% 和最高 99% 的观测值都被直接删除。但是,我们发现,wage 主要是右偏,因此我们可以对极大值进行截尾,而极小值则不截尾。截尾之后,默认生成新变量 wage_tr。

03缩尾 vs 截尾

右侧截尾是把右侧最高的1% 的值直接截掉,而缩尾则是把这些值替换成99% 分位数的值,因而在最右端多出了一个较长的柱体。

04联系学长

最近陆陆续续的有不少小伙伴过来咨询学长论文降重的相关事宜,在这里学长统一说一下。

1、学长降重不提前收任何押金,查重过了再付款

2、收费一定是良心价,但是不与用机器降重的人比价格,相同收费下敢保证降重质量最高,学弟学妹们可任意去对比,学长不靠花里胡哨的推广,只靠口口相传的降重质量保障。

3、预定可优惠,团报可优惠,具体咨询学长哈~

4、学长不只做降重一项业务哦,格式排版、开题报告、答辩PPT等,学长这里一站搞定

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com