今天给各位分享半个月权重5然后又归一了【还有希望么】的知识,其中也会对一个月做到权重6进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
- 1、一文看懂 Attention(本质原理+3大优点+5大类型)
- 2、抖音被限流了还能被恢复吗?
- 3、[转载]中心化(又叫零均值化)和标准化(又叫归一化)
- 4、老网站百度权重5,一年没有快照更新怎么办?
- 5、不知道怎样计算权重?告诉你8种确定权重方法
一文看懂 Attention(本质原理+3大优点+5大类型)
Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「 从关注全部到关注重点 」。
Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。大家看一下下面这张图:
我们一定会看清「锦江饭店」4个字,如下图:
但是我相信没人会意识到「锦江饭店」上面还有一串「电话号码」,也不会意识到「喜运来大酒家」,如下图:
所以,当我们看一张图片的时候,其实是这样的:
上面所说的,我们的视觉系统就是一种 Attention机制, 将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。
AI 领域的 Attention 机制
Attention 机制最早是在计算机视觉里应用的,随后在 NLP 领域也开始应用了,真正发扬光大是在 NLP 领域,因为 2018 年 BERT 和 GPT 的效果出奇的好,进而走红。而 Transformer 和 Attention 这些核心开始被大家重点关注。
如果用图来表达 Attention 的位置大致是下面的样子:
这里先让大家对 Attention 有一个宏观的概念,下文会对 Attention 机制做更详细的讲解。在这之前,我们先说说为什么要用 Attention。
之所以要引入 Attention 机制,主要是3个原因:
参数少
模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小。
速度快
Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。
效果好
在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。
Attention 是挑重点,就算文本比较长,也能从中间抓住重点,不丢失重要的信息。下图红色的预期就是被挑出来的重点。
Attention 经常会和 Encoder-Decoder 一起说,之前的文章《 一文看懂 NLP 里的模型框架 Encoder-Decoder 和 Seq2Seq 》 也提到了 Attention。
下面的动图演示了attention 引入 Encoder-Decoder 框架下,完成机器翻译任务的大致流程。
但是,Attention 并不一定要在 Encoder-Decoder 框架下使用的,他是可以脱离 Encoder-Decoder 框架的。
下面的图片则是脱离 Encoder-Decoder 框架后的原理图解。
小故事讲解
上面的图看起来比较抽象,下面用一个例子来解释 attention 的原理:
图书管(source)里有很多书(value),为了方便查找,我们给书做了编号(key)。当我们想要了解漫威(query)的时候,我们就可以看看那些动漫、电影、甚至二战(美国队长)相关的书籍。
为了提高效率,并不是所有的书都会仔细看,针对漫威来说,动漫,电影相关的会看的仔细一些(权重高),但是二战的就只需要简单扫一下即可(权重低)。
当我们全部看完后就对漫威有一个全面的了解了。
Attention 原理的3步分解:
第一步: query 和 key 进行相似度计算,得到权值
第二步:将权值进行归一化,得到直接可用的权重
第三步:将权重和 value 进行加权求和
想要了解更多技术细节,可以看看下面的文章或者视频:
「文章」 深度学习中的注意力机制
「文章」 遍地开花的 Attention,你真的懂吗?
「文章」 探索 NLP 中的 Attention 注意力机制及 Transformer 详解
「视频」 李宏毅 - transformer
「视频」 李宏毅 - ELMO、BERT、GPT 讲解
Attention 有很多种不同的类型:Soft Attention、Hard Attention、静态Attention、动态Attention、Self Attention 等等。下面就跟大家解释一下这些不同的 Attention 都有哪些差别。
由于这篇文章《 Attention用于NLP的一些小结 》已经总结的很好的,下面就直接引用了:
本节从计算区域、所用信息、结构层次和模型等方面对Attention的形式进行归类。
1. 计算区域
根据Attention的计算区域,可以分成以下几种:
1) Soft Attention,这是比较常见的Attention方式,对所有key求权重概率,每个key都有一个对应的权重,是一种全局的计算方式(也可以叫Global Attention)。这种方式比较理性,参考了所有key的内容,再进行加权。但是计算量可能会比较大一些。
2) Hard Attention,这种方式是直接精准定位到某个key,其余key就都不管了,相当于这个key的概率是1,其余key的概率全部是0。因此这种对齐方式要求很高,要求一步到位,如果没有正确对齐,会带来很大的影响。另一方面,因为不可导,一般需要用强化学习的方法进行训练。(或者使用gumbel softmax之类的)
3) Local Attention,这种方式其实是以上两种方式的一个折中,对一个窗口区域进行计算。先用Hard方式定位到某个地方,以这个点为中心可以得到一个窗口区域,在这个小区域内用Soft方式来算Attention。
2. 所用信息
假设我们要对一段原文计算Attention,这里原文指的是我们要做attention的文本,那么所用信息包括内部信息和外部信息,内部信息指的是原文本身的信息,而外部信息指的是除原文以外的额外信息。
1) General Attention,这种方式利用到了外部信息,常用于需要构建两段文本关系的任务,query一般包含了额外信息,根据外部query对原文进行对齐。
比如在阅读理解任务中,需要构建问题和文章的关联,假设现在baseline是,对问题计算出一个问题向量q,把这个q和所有的文章词向量拼接起来,输入到LSTM中进行建模。那么在这个模型中,文章所有词向量共享同一个问题向量,现在我们想让文章每一步的词向量都有一个不同的问题向量,也就是,在每一步使用文章在该步下的词向量对问题来算attention,这里问题属于原文,文章词向量就属于外部信息。
2) Local Attention,这种方式只使用内部信息,key和value以及query只和输入原文有关,在self attention中,key=value=query。既然没有外部信息,那么在原文中的每个词可以跟该句子中的所有词进行Attention计算,相当于寻找原文内部的关系。
还是举阅读理解任务的例子,上面的baseline中提到,对问题计算出一个向量q,那么这里也可以用上attention,只用问题自身的信息去做attention,而不引入文章信息。
3. 结构层次
结构方面根据是否划分层次关系,分为单层attention,多层attention和多头attention:
1)单层Attention,这是比较普遍的做法,用一个query对一段原文进行一次attention。
2)多层Attention,一般用于文本具有层次关系的模型,假设我们把一个document划分成多个句子,在第一层,我们分别对每个句子使用attention计算出一个句向量(也就是单层attention);在第二层,我们对所有句向量再做attention计算出一个文档向量(也是一个单层attention),最后再用这个文档向量去做任务。
3)多头Attention,这是Attention is All You Need中提到的multi-head attention,用到了多个query对一段原文进行了多次attention,每个query都关注到原文的不同部分,相当于重复做多次单层attention:
最后再把这些结果拼接起来:
4. 模型方面
从模型上看,Attention一般用在CNN和LSTM上,也可以直接进行纯Attention计算。
1)CNN+Attention
CNN的卷积操作可以提取重要特征,我觉得这也算是Attention的思想,但是CNN的卷积感受视野是局部的,需要通过叠加多层卷积区去扩大视野。另外,Max Pooling直接提取数值最大的特征,也像是hard attention的思想,直接选中某个特征。
CNN上加Attention可以加在这几方面:
a. 在卷积操作前做attention,比如Attention-Based BCNN-1,这个任务是文本蕴含任务需要处理两段文本,同时对两段输入的序列向量进行attention,计算出特征向量,再拼接到原始向量中,作为卷积层的输入。
b. 在卷积操作后做attention,比如Attention-Based BCNN-2,对两段文本的卷积层的输出做attention,作为pooling层的输入。
c. 在pooling层做attention,代替max pooling。比如Attention pooling,首先我们用LSTM学到一个比较好的句向量,作为query,然后用CNN先学习到一个特征矩阵作为key,再用query对key产生权重,进行attention,得到最后的句向量。
2)LSTM+Attention
LSTM内部有Gate机制,其中input gate选择哪些当前信息进行输入,forget gate选择遗忘哪些过去信息,我觉得这算是一定程度的Attention了,而且号称可以解决长期依赖问题,实际上LSTM需要一步一步去捕捉序列信息,在长文本上的表现是会随着step增加而慢慢衰减,难以保留全部的有用信息。
LSTM通常需要得到一个向量,再去做任务,常用方式有:
a. 直接使用最后的hidden state(可能会损失一定的前文信息,难以表达全文)
b. 对所有step下的hidden state进行等权平均(对所有step一视同仁)。
c. Attention机制,对所有step的hidden state进行加权,把注意力集中到整段文本中比较重要的hidden state信息。性能比前面两种要好一点,而方便可视化观察哪些step是重要的,但是要小心过拟合,而且也增加了计算量。
3)纯Attention
Attention is all you need,没有用到CNN/RNN,乍一听也是一股清流了,但是仔细一看,本质上还是一堆向量去计算attention。
5. 相似度计算方式
在做attention的时候,我们需要计算query和某个key的分数(相似度),常用方法有:
5)用多层感知机也可以:
抖音被限流了还能被恢复吗?
具体情况具体分析,先要明确限流的原因,才能对症下药。
1.检查违规操作
包括账号的昵称、头像以及简介,是否带有营销色彩;是否有买粉、刷赞等违规操作;是否存在一部手机连续切换不同的抖音号的行为等行为。
如果有以上这些违规操作,账号被限流是没有冤枉你的。要怎么补救?
首先,把昵称、简介等改成正常的,像这样昵称、简介和头像都是与视频内容相关的,而且不涉及营销,就是非常好的例子。
图片来自:飞瓜数据—播主详情
其次,做到一机一号;
至于买粉、刷赞这些,就要看当初买的粉质量如何了。
另外,视频内容涉及敏感话题、衣着暴露、不良引导等都属于违规视频,怎么检查是否存在违规,最快捷的方法,就是试试能否做豆荚速推,如果不在可投放作品列表里,就说明该视频违规。
2.作品内容
视频内容最好要有一个专门的领域和发展方向,不要今天拍美食,明天拍美妆,后天又分享穿搭,这样混乱的内容很难让抖音给你识别出“标签”,抖音算法就无法将视频推荐给精准的粉丝。
要想解决这个问题,首先一定要明确自己的定位,确定要做什么类型的账号, 然后去看看同类型的行业kol是怎么做的,再加以模仿和改造,这样流量会慢慢增加的。这边建议可以使用一下飞瓜数据的【播主排行榜】,榜单每天都会更新最新的各类播主排行榜数据,能够更快找到业内KOL王牌播主和新晋达人,学习借鉴他们成长经验和专业内容。
图片来自:飞瓜数据—播主排行榜
在账号被处罚降权限流的时候,可以去转发别人的优质作品,依然会有正常的流量,带来新的赞和评论,快速恢复你的账号权重。借助飞瓜数据的【热门视频】,筛选同类型的热门视频,点开视频详情就能在抖音上扫码打开该视频,然后进行转发操作就可以了。
但是要注意,一旦账号恢复正常,就不可以再进行这种操作,否则原创作者可以举报你让你再次限流甚至封号都有可能。
图片来自:飞瓜数据—热门视频
在发现自己被限流了之后,一定不要慌张焦虑,先找出自己被限流的原因,如有违规操作马上停止,只要不被平台封号就有挽救的机会,然后再进行一周左右的养号,就可以慢慢恢复了。
以上就是我的回答,希望能对您有帮助!
[转载]中心化(又叫零均值化)和标准化(又叫归一化)
一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?
1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
2、(1)中心化(零均值化)后的数据均值为零
(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)
三、下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,
比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
· 对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
四、归一化
两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。
1、 归一化为什么能提高梯度下降法求解最优解的速度?
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
2、归一化有可能提高精度
一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
3、以下是两种常用的归一化方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
转化函数为:
其中 为所有样本数据的均值, 为所有样本数据的标准差。
五、中心化(以PCA为例)
下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).
在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。
如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。
参考:
1.
2.
老网站百度权重5,一年没有快照更新怎么办?
作为新晋的友情链接交换新手,常常在查询网站交换对象信息时,总会发现很多网站快照更新并不及时,如果是三两天还能理解,毕竟正常情况下百度快照也是三天一更新的,但是相差一周甚至半个月这个时间跨度就有点离谱了,多半是网站出现了什么问题,那么针对这种情况下的网站百度快照更新问题有什么好的解决办法吗?下面就针对该问题进行详细分析,希望可以帮助到大家哦。
1、网站文章的原创性
众所周知,如果一个网站的原创内容保持规律性更新,百度快照的更新周期会逐渐缩短,因为百度快照的更新速度与网站的数据是成正比的。因此,高质量的原创网站文章更新对搜索引擎的抓取是有很大吸引力的,如果想保证百度快照的规律性更新,不妨做好网站原创文章的编辑,这对于提高百度快照更新速度是很有帮助的哦。
2、网站内容的更新频率
一般来说,如果网站能够保证规律性的原创文章更新,相信不用多久就可以从百度快照的更新频率上发现变化。搜索引擎是非常喜欢这样具有高原创性和规律性的网站的,如果想要从文章更新频率上下手改变百度快照的更新是可行的。
3、服务器的稳定性
通常网站服务器的稳定性直接与网站是否能够正常打开有直接的影响,如果网站服务器不能支持网站页面的正常打开,对搜索引擎和用户群体来说都是非常影响访问体验的,一次两次还好说,如果长时间都是这种情况,相信一定引起了站长们的关注,一旦搜索引擎误认为网站已死,就会降低网站的抓取情况,对网站的正常运营有很大的影响,因此,在网站服务器上的选择一定要多加注意哦,千万不要因小失大。
总而言之,上述内容的分享就是根据站长们自身优化的经验进行总结的,希望可以帮助到有需要的朋友们做好网站百度快照更新问题的解决,共同助力百度快照的稳定更新!
不知道怎样计算权重?告诉你8种确定权重方法
计算权重是一种常见的分析方法,在实际研究中,需要结合数据的特征情况进行选择,比如数据之间的波动性是一种信息量,那么可考虑使用CRITIC权重法或信息量权重法;也或者专家打分数据,那么可使用AHP层次法或优序图法。
本文列出常见的权重计算方法,并且对比各类权重计算法的思想和大概原理,使用条件等,便于研究人员选择出科学的权重计算方法。
首先列出常见的8类权重计算方法,如下表所示:
这8类权重计算的原理各不相同,结合各类方法计算权重的原理大致上可分成4类,分别如下:
第一类、信息浓缩 (因子分析和主成分分析)
计算权重时,因子分析法和主成分法均可计算权重,而且利用的原理完全一模一样,都是利用信息浓缩的思想。因子分析法和主成分法的区别在于,因子分析法加带了‘旋转’的功能,而主成分法目的更多是浓缩信息。
‘旋转’功能可以让因子更具有解释意义,如果希望提取出的因子具有可解释性,一般使用因子分析法更多;并非说主成分出来的结果就完全没有可解释性,只是有时候其解释性相对较差而已,但其计算更快,因而受到广泛的应用。
比如有14个分析项,该14项可以浓缩成4个方面(也称因子或主成分),此时该4个方面分别的权重是多少呢?此即为因子分析或主成分法计算权重的原理,它利用信息量提取的原理,将14项浓缩成4个方面(因子或主成分),每个因子或主成分提取出的信息量(方差解释率)即可用于计算权重。接下来以SPSSAU为例讲解具体使用因子分析法计算权重。
如果说预期14项可分为4个因子,那么可主动设置提取出4个因子,相当于14句话可浓缩成4个关键词。
但有的时候并不知晓到底应该多少个因子更适合,此时可结合软件自动推荐的结果和专业知识综合进行判断。点击SPSSAU‘开始分析’后,输出关键表格结果如下:
上表格中黄色底纹为‘旋转前方差解释率’,其为没有旋转前的结果,实质上就是主成分的结果。如果是使用因子分析,一般使用‘旋转后方差解释率’对应的结果。
结果中方差解释率%表示每个因子提取的信息量,比如第1个因子提取信息量为22.3%,第2个因子为21.862%,第3个因子为18.051%,第4个因子为10.931%。并且4个因子累积提取的信息量为73.145%。
那么当前4个因子可以表述14项,而且4个因子提取出14项的累积信息量为73.145%。现希望得到4个因子分别的权重,此时可利用归一化处理,即相当于4个因子全部代表了整体14项,那么第1个因子的信息量为22.3%/73.145%=30.49%;类似的第2个因子为21.862%/73.145%=29.89%;第3个因子为18.051%/73.145%=24.68%;第4个因子为10.931%/73.145%=14.94%。
如果是使用主成分法进行权重计算,其原理也类似,事实上结果上就是‘旋转前方差解释率’值的对应计算即可。
使用浓缩信息的原理进行权重计算时,只能得到各个因子的权重,无法得到具体每个分析项的权重,此时可继续结合后续的权重方法(通常是熵值法),得到具体各项的权重,然后汇总在一起,最终构建出权重体系。
通过因子分析或主成分分析进行权重计算的核心点即得到方差解释率值,但在得到权重前,事实上还有较多的准备工作,比如本例子中提取出4个因子,为什么是4个不是5个或者6个;这是结合专业知识和分析方法提取的其它指标进行了判断;以及有的时候某些分析项并不适合进行分析,还需要进行删除处理后才能进行分析等,此类准备工作是在分析前准备好,具体可参考SPSSAU帮助手册里面有具体的实际案例和视频说明等。
第二类、数字相对大小 (AHP层次法和优序图法)
计算权重的第二类方法原理是利用数字相对大小,数字越大其权重会相对越高。此类原理的代表性方法为AHP层次法和优序图法。
1. AHP层次法
AHP层次分析法的第一步是构建判断矩阵,即建立一个表格,表格里面表述了分析项的相对重要性大小。比如选择旅游景点时共有4个考虑因素,分别是景色,门票,交通和拥护度,那么此4个因素的相对重要性构建出判断矩阵如下表:
表格中数字代表相对重要的大小,比如门票和景色的数字为3分,其说明门票相对于景色来讲,门票更加重要。当然反过来,景色相对于门票就更不重要,因此得分为1/3=0.3333分。
AHP层次分析法正是利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。AHP层次分析法一般用于专家打分,直接让多位专家(一般是4~7个)提供相对重要性的打分判断矩阵,然后进行汇总(一般是去掉最大值和最小值,然后计算平均值得到最终的判断矩阵,最终计算得到各因素的权重。
SPSSAU共有两个按键可进行AHP层次分析法计算。
如果是问卷数据,比如本例中共有4个因素,问卷中可以直接问“景色的重要性多大?”,“门票的重要性多大?”,“交通的重要性多大?”,“拥护度的重要性多大?”。可使用SPSSAU【问卷研究】--【权重】,系统会自动计算平均值,然后直接利用平均值大小相除得到相对重要性大小,即自动计算得到判断矩阵而不需要研究人员手工输入。
如果是使用【综合评价】--【AHP层次分析法】,研究人员需要自己手工输入判断矩阵。
2. 优序图法
除了AHP层次分析法外,优序图法也是利用数字的相对大小进行权重计算。
数字相对更大时编码为1,数字完全相同为0.5,数字相对更我码为0。然后利用求和且归一化的方法计算得到权重。比如当前有9个指标,而且都有9个指标的平均值,9个指标两两之间的相对大小可以进行对比,并且SPSSAU会自动建立优序图权重计算表并且计算权重,如下表格:
上表格中数字0表示相对不重要,数字1表示相对更重要,数字0.5表示一样重要。比如指标2的平均值为3.967,指标1的平均值是4.1,因此指标1不如指标2重要;指标4的平均值为4.3,重要性高于指标1。也或者指标7和指标9的平均得发均为4.133分,因此它们的重要性一样,记为0.5。结合上面最关键的优序图权重计算表,然后得到各个具体指标(因素)的权重值。
优序图法适用于专家打分法,专家只需要对每个指标的重要性打分即可,然后让软件SPSSAU直接结合重要性打分值计算出相对重要性指标表格,最终计算得到权重。
优序图法和AHP法的思想上基本一致,均是利用了数字的相对重要性大小计算。一般在问卷研究和专家打分时,使用AHP层次分析法或优序图法较多。
第三类、信息量 (熵值法)
计算权重可以利用信息浓缩,也可利用数字相对重要性大小,除此之外,还可利用信息量的多少,即数据携带的信息量大小(物理学上的熵值原理)进行权重计算。
熵值是不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。因而利用熵值携带的信息进行权重计算,结合各项指标的变异程度,利用信息熵这个工具,计算出各项指标的权重,为多指标综合评价提供依据。
在实际研究中,通常情况下是先进行信息浓缩法(因子或主成分法)得到因子或主成分的权重,即得到高维度的权重,然后想得到具体每项的权重时,可使用熵值法进行计算。
SPSSAU在【综合评价】模块中提供此方法,其计算也较为简单易懂,直接把分析项放在框中即可得到具体的权重值。
第四类、数据波动性或相关性 (CRITIC、独立性和信息量权重)
可利用因子或主成分法对信息进行浓缩,也可以利用数字相对大小进行AHP或优序图法分析得到权重,还可利用物理学上的熵值原理(即信息量携带多少)的方法得到权重。除此之外,数据之间的波动性大小也是一种信息,也或者数据之间的相关关系大小,也是一种信息,可利用数据波动性大小或数据相关关系大小计算权重。
1. CRITIC权重法
CRITIC权重法是一种客观赋权法。其思想在于用两项指标,分别是对比强度和冲突性指标。对比强度使用标准差进行表示,如果数据标准差越大说明波动越大,权重会越高;冲突性使用相关系数进行表示,如果指标之间的相关系数值越大,说明冲突性越小,那么其权重也就越低。权重计算时,对比强度与冲突性指标相乘,并且进行归一化处理,即得到最终的权重。使用SPSSAU时,自动会建立对比强度和冲突性指标,并且计算得到权重值。
CRITIC权重法适用于这样一类数据,即数据稳定性可视作一种信息,并且分析的指标或因素之间有着一定的关联关系时。比如医院里面的指标:出院人数、入出院诊断符合率、治疗有效率、平均床位使用率、病床周转次数共5个指标;此5个指标的稳定性是一种信息,而且此5个指标之间本身就可能有着相关性。因此CRITIC权重法刚好利用数据的波动性(对比强度)和相关性(冲突性)进行权重计算。
SPSSAU综合评价里面提供CRITIC权重法,如下图所示:
2. 独立性权重法
独立性权重法是一种客观赋权法。其思想在于利用指标之间的共线性强弱来确定权重。如果说某指标与其它指标的相关性很强,说明信息有着较大的重叠,意味着该指标的权重会比较低,反之如果说某指标与其它指标的相关性较弱,那么说明该指标携带的信息量较大,该指标应该赋予更高的权重。
独立性权重法仅仅只考虑了数据之间相关性,其计算方式是使用回归分析得到的复相关系数R 值来表示共线性强弱(即相关性强弱),该值越大说明共线性越强,权重会越低。比如有5个指标,那么指标1作为因变量,其余4个指标作为自变量进行回归分析,就会得到复相关系数R 值,余下4个指标重复进行即可。计算权重时,首先得到复相关系数R 值的倒数即1/R ,然后将值进行归一化即得到权重。
比如某企业计划招聘5名研究岗位人员,应聘人员共有30名,企业进行了五门专业方面的笔试,并且记录下30名应聘者的成绩。由于专业课成绩具有信息重叠,因此不能简单的直接把成绩加和用于评价应聘者的专业素质。因此使用独立性权重进行计算,便于得到更加科学客观的评价,选出最适合的应聘者。
SPSSAU综合评价里面提供独立性权重法,如下图所示:
3. 信息量权重法
信息量权重法也称变异系数法,信息量权重法是一种客观赋权法。其思想在于利用数据的变异系数进行权重赋值,如果变异系数越大,说明其携带的信息越大,因而权重也会越大,此种方法适用于专家打分、或者面试官进行面试打分时对评价对象(面试者)进行综合评价。
比如有5个水平差不多的面试官对10个面试者进行打分,如果说某个面试官对面试者打分数据变异系数值较小,说明该面试官对所有面试者的评价都基本一致,因而其携带信息较小,权重也会较低;反之如果某个面试官对面试者打分数据变异系数值较大,说明该面试官对所有面试者的评价差异较大,因而其携带信息大,权重也会较高。
SPSSAU综合评价里面提供信息量权重法,如下图所示:
对应方法的案例说明、结果解读这里不再一一详述,有兴趣可以参考SPSSAU帮助手册。
关于半个月权重5然后又归一了【还有希望么】和一个月做到权重6的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。