权重是什么意思|权重基本原理( 二 )

权重是什么意思|权重基本原理



如果以总分排名或者物理单科成绩排名来决定参赛人员,就简单多了,只需要在总成绩表或物理成绩排名表中取前三就ok了 。但是,学校要考虑的,一方面是要物理成绩要好,可以在此次全国物理竞赛中获得优异成绩,为校争光 。另一方面还要保证参赛同学的总成绩也要优秀,不然真的保送到清华北大结果成绩总是垫底就太打脸了 。这时就需要考虑到物理单科成绩和总成绩两个数据维度,到底派谁去参赛呢?当需要两个以上数据维度共同影响决策结果的情况下,我们就需要用到权重,对多个维度的数据进行加权计算,计算出总的权重分,再对权重分进行排序,得到我们想要的结果 。
学校的教导主任给出了最终加权公式如下:
加权总成绩=数学*2+语文*2+英语*2+化学*1+生物*1+物理*5
教导主任认为参加物理竞赛,物理成绩最重要,分数乘以5倍,其次数学、语文、英语是基本学科,分数乘以2倍,化学和生物保持不变,乘以1 。即总权重分等于2倍的标准化数学、语文、英语成绩,加上1倍的标准化生物、化学成绩,加上5倍的标准化物理成绩 。
*说明,在乘以系数之前已经把各科成绩进行标准化处理,因为数据和数据不同 。满分150分的科目(如数语英)得90分和满分100分的科目(物化生)得90分的意义是不同的 。比如英语150分满分得了90分,但换成百分制的话才刚刚及格(相当于100分满分才得了60分),与满分100分得了90分做对比,显然不是一个概念,因此我们需要对数据进行标准化处理,把各科成绩的最高分和最低分映射到0-1的范围空间,再对各科成绩进行加权,以保证满分150分的科目和满分100分的科目在加权之前有相同的起点 。
数据标准化公式:x*=(x-min)/(max-min)
最终加权计算后的结果如下图所示:
权重是什么意思|权重基本原理



按照教导主任的加权算法得出的结果是,派权重分前三名,即总成绩分别排名第1、6、17,物理单科成绩分别排9、4、1的若雨、婧淇、绍辉三名同学参赛 。
如此一来,我们通过给多个学科进行加权计算,得出加权权重分,最终得出了我们想要的结果:兼顾物理成绩与总成绩;物理成绩最重要;同时总成绩中数语外成绩相比化学生物更重要一些 。
物理成绩占加权权重分的比例为39% 。
权重是什么意思|权重基本原理



教导主任的加权公式中的权重值可以自由定义,本文用的是5、3、1的比例,权重比例不同,最终选派参赛的结果也不尽相同 。这个权重计算小工具,可以应用到关键词筛选的工作当中 。关键词有很多数据维度,比如展现量、点击量、点击率、转化率等,当需要兼顾多个数据维度的筛选时,比如要找转化率高,并且搜索人气也要高,点击率别太低的词,就可以通过这个方法给多个数据维度自定义加权,筛选出我们想要的关键词 。
真实世界的排名算法——reddit网站的排名算法
上述学生排名只是一个简单的举例,真实世界中的加权算法是什么样的呢?
我们以国外知名的论坛reddit为例,来了解下算法是如何工作的 。(为什么不用国内的论坛来说明呢?因为国内的论坛算法未公开(遗憾的是现在reddit在国内无法直接访问))


-------------------------------------------------

-------------------------------------------------


以下关于reddit网站排名算法的内容转载自阮一峰博客 。
原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_reddit.html
reddit网站的排名算法如下:
权重是什么意思|权重基本原理



权重是什么意思|权重基本原理



Reddit 是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对" 。用户点击进行投票,Reddit 根据投票结果,计算出最新的"热点文章排行榜" 。
怎样才能将赞成票和反对票结合起来,计算出一段时间内最受欢迎的文章呢?如果文章A有 100 张赞成票、5张反对票,文章B有 1000 张赞成票、950张反对票,谁应该排在前面呢?
Reddit 的程序是开源的,使用 Python 语言编写 。排名算法的代码大致如下:
权重是什么意思|权重基本原理



这段代码考虑了这样几个因素:
(1)帖子的新旧程度t