【数据分析】嫡权法EWM

马肤
这是懒羊羊

总结:基于熵值信息来计算出权重,数据具有客观性。

目录

简介

计算步骤

案例


简介

熵值法原理

熵值法的基本思路是根据指标变异性的大小来确定客观权重信息熵:信息量的期望。可以理解成不确定性的大小,不确定性越大,信息熵也就越大

若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。

1、背景说明

熵值法(熵权法)是一种研究指标权重的研究方法,比如有5个指标,分别为指标1到指标5,并且有很多样本(比如100个样本),即100行*5列数据,此时研究该5个指标的权重分别是多少。

但从上述可以看到,数据格式上为100个样本即100行数据。如果说当前是面板数据即比如100家公司分别5年,那么就是100*5=500行数据,依旧还是5个指标,即500行*5列数据。此时希望利用熵值法研究该5个指标的权重情况,应该如何处理呢?

2、数据格式

首先从数据格式上,应该类似下图,即有2列数据分别标识公司ID和年份,比如当前为100家公司分别5年,那么就有100*5行的数据。

3、面板数据如何进行熵值法?

熵值法的原理是利用‘熵’来计算权重,‘熵’用来标识信息的不确定性情况,熵越大意味着不确定性越大->信息量越小->权重越小,这是熵值法的原理。

从原理角度上看:

  • 面板数据要想计算出5个指标的权重,也是利用‘熵’来计算,也即说明只要能计算出数据的‘熵’值,即可得到权重。而‘熵值’的计算上,并不会考虑是否为面板数据,因而从原理角度,面板数据与普通数据完全一致,直接放入分析即可。

    从分析角度上看:

    • 针对面板数据,通常有两种做法,分别是做1次,分别重复多次再汇总,如下表格所示:

      分析做法说明
      一次法完全不考虑是否面板数据,直接与普通数据一样做一次分析即可
      多次法比如5年数据,先筛选出第1次的数据做1次,接着重复做另外4次,分别得到5次权重,然后将权重求平均值。

       一次法,此种做法非常常见,即完全不考虑是否为面板数据,在原理上并没有任何问题。因为熵值法计算权重的原理是利用‘熵’值信息,相当于把100家公司5年即500个数字当成一个序列,计算该序列的‘熵’用于判断该500个数字的不确定性情况。最终得到权重。

      另外也可分别筛选出某年数据后,基于100家公司即100个数字看成1个序列,计算该100个数字的不确定性情况,并且最终得到权重,此法称作多次法。

      计算步骤

      (1) 数据标准化。由于一般会使用到多个评估指标,而这些指标的量纲和单位多数情况下都不相同,因此需要对这些指标数据进行归一化处理,以消除因量纲不同而对评价结果造成的影响,从而确保评价结果的客观性与公正性。单条标准化数据正向和负向指标公式分别如下所示:

      对于正向指标希望值越大越好,负向指标希望越小越好,需保证标准化后都是正数

      (2) 求各指标在各方案下的比值。计算第j项指标的第i个样本所占的比重,并将其看作信息熵计算中用到的概率,如下公式所示:

      (3)求各指标的信息熵。 计算第 j 项指标的熵值ej ,如下公式所示:

      (4) 计算各指标客观权重值wj ,如下公式所示:

      案例

      评价该年级的11个班级的整体情况,如下所示,11个班级有9个指标因素

      第一步,进行数据标准化

      数据标准化后的结果为:

      第二步,求各指标在各方案下的比值

      使用公式:

      第三步,求各指标的信息熵

      使用的公式:

      第四步,确定各指标的权重

      使用公式:

      第五步,计算综合得分

      使用公式:


文章版权声明:除非注明,否则均为VPS857原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复:表情:
评论列表 (暂无评论,0人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码