权重是什么意思(权重基本原理)
权重是什么意思(权重基本原理)
电商行业工作多年,泡在派代多年,一直期待有一套理论能够系统地归纳电商运营的本质,总结现象背后的原理,然后解释电商运营工作中的各种现象。从日常中提炼出智慧,再用智慧指导日常的运营工作,最终形成知识的深度凝结、深度沉淀。写下此文以抛砖引玉,希望能够冷静地建立并检验有关电商运营的理论体系,正所谓论辩出真知,不足之处欢迎猛烈拍砖。
-------------------------------------------------
-------------------------------------------------
什么是权重?
作为电商运营,对权重一词一定不陌生,我们常常听说刷单会降权、改标题会降权、改主图会降权等等,那到底什么是权重呢?
先看下百科的解释:权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。
我们常说的权重其实是搜索排序的决策因子。做电商,客服、发货、售后等工作相对都好解决,让大家觉得困难的在于获取流量,倘若有无穷无尽的流量,那么只需坐地数钱就好,想想都美滋滋。要想在平台内获取大量流量,就需要一个好的排名,而好的排名则离不开较高的权重。
派代网会怎么搞?
我们先来思考一个问题——我们正在浏览的派代网,他是如何解决帖子的排序问题的?
作为电商人的聚集地,如今派代总帖子数已超过36万篇,并以每日百篇的速度持续高速增长。派代是用什么方法筛选优质的帖子呢?哪些排在前面,哪些排在后面,哪些会被优先推送到牌友面前?这背后遵循的逻辑是什么呢?
这30多万帖子,全靠派代网员工挨个读一遍然后手动排序肯定是不现实的,这需要极大的人力物力成本。普遍做法是通过算法模型,给每个帖子进行加权计算,并按照权重值进行降序排列,将权重值最高的、“最好”的帖子优先展现在用户面前。
而要进行权重计算则离不开最基础的原料——数据,那么数据从何而来呢?我们以派代网为例:
收集数据——权重的基础原料
用户打开派代网,看到帖子列表,从中选择感兴趣的话题点击进入,进行浏览阅读,觉得有价值的会收藏,有共鸣的会在评论区打call,有疑问会在评论区讨论,觉得作者写得不错没看过瘾的,还会点开作者的头像看看有没有更多的系列文章。以上是用户在论坛内的主要行动轨迹。
正是基于以上的行为,论坛会在后台统计每个用户的动作,进而形成多个数据纬度,例如展现量、点击量、停留时长、收藏数、评论数、访问深度等。
在用户点击鼠标浏览的同时,论坛将用户的行为记录为计算机语言——数据,从计算机的视角出发,在它眼中看到的用户的浏览行为是这样的:
用户打开派代网,看到帖子列表——后台形成展现量数据
从中选择感兴趣的话题点击进入——后台形成点击量数据
进行浏览阅读——后台形成停留时长数据
觉得有价值的会收藏——后台形成收藏数数据
有共鸣的会在评论区打call,有疑问会在评论区讨论——后台形成评论数数据
觉得作者写得不错没看过瘾的,还会点开作者的头像看看有没有更多的系列文章——后台形成访问深度数据
通过给这些数据进行加权计算,最终得到一个综合权重分,通过综合权重分的高低判断哪些帖子是优质的,进而给优质的帖子更多的曝光机会。
至于说帖子的内容究竟怎么样,是生动有趣还是味如嚼蜡,计算机并没有判断的能力,他像一个小孩子站在我们面前,我们看着帖子,他则观察我们的态度:我们是津津有味地看还是一目十行敷衍了事地看?他虽看不懂文章却能通过我们的态度来评判帖子的好坏。
算法是如何加权的呢?
有了数据如何加权计算呢?我们来看一个简单的例子。
某中学三年级有100名学生,某次期末的考试结果如下。通常的排名方式是按照各科成绩直接相加得出总成绩,再对总成绩进行降序排列(从大到小排列),总分排名的结果是学号49号的若雨同学排名年级第一,总分降序排名如图:
现在学校需要挑选3名同学去参加全国物理竞赛,成绩优异者可以保送名牌大学。如果我们按照物理单科成绩降序排列,可以看到50号绍辉同学物理单科成绩第一。
如果以总分排名或者物理单科成绩排名来决定参赛人员,就简单多了,只需要在总成绩表或物理成绩排名表中取前三就ok了。但是,学校要考虑的,一方面是要物理成绩要好,可以在此次全国物理竞赛中获得优异成绩,为校争光。另一方面还要保证参赛同学的总成绩也要优秀,不然真的保送到清华北大结果成绩总是垫底就太打脸了。这时就需要考虑到物理单科成绩和总成绩两个数据维度,到底派谁去参赛呢?当需要两个以上数据维度共同影响决策结果的情况下,我们就需要用到权重,对多个维度的数据进行加权计算,计算出总的权重分,再对权重分进行排序,得到我们想要的结果。
学校的教导主任给出了最终加权公式如下:
加权总成绩=数学*2+语文*2+英语*2+化学*1+生物*1+物理*5
教导主任认为参加物理竞赛,物理成绩最重要,分数乘以5倍,其次数学、语文、英语是基本学科,分数乘以2倍,化学和生物保持不变,乘以1。即总权重分等于2倍的标准化数学、语文、英语成绩,加上1倍的标准化生物、化学成绩,加上5倍的标准化物理成绩。
*说明,在乘以系数之前已经把各科成绩进行标准化处理,因为数据和数据不同。满分150分的科目(如数语英)得90分和满分100分的科目(物化生)得90分的意义是不同的。比如英语150分满分得了90分,但换成百分制的话才刚刚及格(相当于100分满分才得了60分),与满分100分得了90分做对比,显然不是一个概念,因此我们需要对数据进行标准化处理,把各科成绩的最高分和最低分映射到0-1的范围空间,再对各科成绩进行加权,以保证满分150分的科目和满分100分的科目在加权之前有相同的起点。
数据标准化公式:x*=(x-min)/(max-min)
最终加权计算后的结果如下图所示:
按照教导主任的加权算法得出的结果是,派权重分前三名,即总成绩分别排名第1、6、17,物理单科成绩分别排9、4、1的若雨、婧淇、绍辉三名同学参赛。
如此一来,我们通过给多个学科进行加权计算,得出加权权重分,最终得出了我们想要的结果:兼顾物理成绩与总成绩;物理成绩最重要;同时总成绩中数语外成绩相比化学生物更重要一些。
物理成绩占加权权重分的比例为39%。
教导主任的加权公式中的权重值可以自由定义,本文用的是5、3、1的比例,权重比例不同,最终选派参赛的结果也不尽相同。这个权重计算小工具,可以应用到关键词筛选的工作当中。关键词有很多数据维度,比如展现量、点击量、点击率、转化率等,当需要兼顾多个数据维度的筛选时,比如要找转化率高,并且搜索人气也要高,点击率别太低的词,就可以通过这个方法给多个数据维度自定义加权,筛选出我们想要的关键词。
真实世界的排名算法——reddit网站的排名算法
上述学生排名只是一个简单的举例,真实世界中的加权算法是什么样的呢?
我们以国外知名的论坛reddit为例,来了解下算法是如何工作的。(为什么不用国内的论坛来说明呢?因为国内的论坛算法未公开(遗憾的是现在reddit在国内无法直接访问))
-------------------------------------------------
-------------------------------------------------
以下关于reddit网站排名算法的内容转载自阮一峰博客。
原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_reddit.html
reddit网站的排名算法如下:
Reddit 是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit 根据投票结果,计算出最新的"热点文章排行榜"。
怎样才能将赞成票和反对票结合起来,计算出一段时间内最受欢迎的文章呢?如果文章A有 100 张赞成票、5张反对票,文章B有 1000 张赞成票、950张反对票,谁应该排在前面呢?
Reddit 的程序是开源的,使用 Python 语言编写。排名算法的代码大致如下:
这段代码考虑了这样几个因素:
(1)帖子的新旧程度t
t = 发贴时间 - 2005年12月8日7:46:43
t的单位为秒,用unix时间戳计算。不难看出,一旦帖子发表,t就是固定值,不会随时间改变,而且帖子越新,t值越大。至于2005年12月8日,应该是Red网dit成立的时间。
(2)赞成票与反对票的差x
x = 赞成票 - 反对票
(3)投票方向y
y是一个符号变量,表示对文章的总体看法。如果赞成票居多,y就是+1;如果反对票居多,y就是-1;如果赞成票和反对票相等,y就是0。
(4)帖子的受肯定(否定)的程度z
z表示赞成票与反对票之间差额的绝对值。如果对某个帖子的评价,越是一边倒,z就越大。如果赞成票等于反对票,z就等于1。
结合以上几个变量,Reddit的最终得分计算公式如下:
这个公式可以分成两个部分来讨论:
(一)
这个部分表示,赞成票与反对票的差额z越大,得分越高。
需要注意的是,这里用的是以10为底的对数,意味着z=10可以得到1分,z=100可以得到2分。也就是说,前10个投票人与后90个投票人(乃至再后面900个投票人)的权重是一样的,即如果一个帖子特别受到欢迎,那么越到后面投赞成票,对得分越不会产生影响。
当赞成票等于反对票,z=1,因此这个部分等于0,也就是不产生得分。
(二)
这个部分表示,t越大,得分越高,即新帖子的得分会高于老帖子。它起到自动将老帖子的排名往下拉的作用。
分母的45000秒,等于12.5个小时,也就是说,后一天的帖子会比前一天的帖子多得2分。结合前一部分,可以得到结论,如果前一天的帖子在第二天还想保持原先的排名,在这一天里面,它的z值必须增加100倍(净赞成票增加100倍)。
y的作用是产生加分或减分。当赞成票超过反对票时,这一部分为正,起到加分作用;当赞成票少于反对票时,这一部分为负,起到减分作用;当两者相等,这一部分为0。这就保证了得到大量净赞成票的文章,会排在前列;赞成票与反对票接近或相等的文章,会排在后面;得到净反对票的文章,会排在最后(因为得分是负值)。
(三)
这种算法的一个问题是,对于那些有争议的文章(赞成票和反对票非常接近),它们不可能排到前列。假定同一时间有两个帖子发表,文章A有1张赞成票(发帖人投的)、0张反对票,文章B有1000张赞成票、1000张反对票,那么A的排名会高于B,这显然不合理。
结论就是,Reddit的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。这决定了Reddit是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。
以上关于reddit网站排名算法的内容转载自阮一峰博客。
原文链接:http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_reddit.html
-------------------------------------------------
-------------------------------------------------
加权算法的两个核心要素:数据+算法
淘宝的数据
现在我们来看淘宝,回想一下买家在淘宝平台的行动轨迹是什么样的:
买家产生购买意图;打开淘宝;搜索关键词;点击感兴趣的商品;收藏加购;对比多个宝贝;下单支付;等待收货;确认收货;评价晒图……
同样的,淘宝平台也会将买家的行为记录为数据,截止目前,生意参谋统计的数据指标共1960个(数据来源:生意参谋-学院-帮助中心),当然这还不包括直通车等营销工具的数据,另外还有一些数据是淘宝统计到但尚未公开的。
电商平台以购物为主,一切围绕产品展开,我们以产品相关的数据为中心来分析。生意参谋中产品相关的已公开的并且可以直接下载的数据维度共有39个(数据来源:生意参谋-取数-商品),这39个数据维度可以归类到4个大的方向:展现/访问/转化/成交。
数据归类脑图如下:
1.展现/曝光:产品出现在消费者面前,如搜索结果页、活动页。
2.访问/浏览:买家一次或多次浏览店铺、产品、评价等页面,由展现变成流量。
3.转化/互动/交流:买家对感兴趣的产品收藏、加购、咨询、下单、支付等,由流量变成订单。
4.成交/评价:付款后直至最终确认收货,退换货、晒图评价等,由网订单变成金钱。
这4个方向就是买家在整个购物流程中的关键节点。
淘宝的算法
从前端消费者的角度来看,淘宝有2大常用的排序方式:综合排序和销量排序(价格、信用排序用户体验差,使用频率低,因此这些排序入口的流量小,可忽略),不同的排序方式对应着不同的算法。
销量排序算法:score=确认收货人数
销量排序只考察一个数据指标——确认收货人数,具体的定义是:统计产品最近30天交易成功的数量,去除重复购买,去除退货退款,去除不计算销量活动,汇总进行计算。
综合排序算法淘宝未公开,它虽然神秘但也不是无迹可寻。综合搜索主要考察以下几个方面:
1、文本、类目相关性:解决的是能不能搜到的问题,只要在销量排名下产品在关键词下可搜索到就说明没问题了。从平台的角度来讲,这个部分的工作需要把 a.描述产品的文本信息(标题、属性、详情中的文本等)与b.产品ID、与c.搜索关键词三方进行匹配。
2、商品人气数据和搜索反馈数据等:解决的是搜出来谁先谁后的问题,通过多数据维度综合加权计算得出,如产品模型、店铺模型、服务模型、物流模型、内容模型等。
3、作弊稽查模型:解决的是作弊商品过滤的问题。
销量排序和综合排序类似我们前文提到的物理单科成绩排行和综合加权总分排行。一种是单一维度的排序:销量排序,一种是综合多个维度的排序:综合排序。单一维度顾名思议,只考察一个数据维度,而综合则是更全面更系统的考察,综合排序也包含了淘宝平台对新品的扶持、对飙升产品的助力。
如果说销量排名只是考察一个学生的期末总成绩的话,那么综合排序就好像是除了期末总成绩外还要考察这个学生日常课堂的表现、有没有迟到早退、日常作业完成情况、平时测验分数等等等等。
如果有条件的话,优化每一个数据指标,全面系统地提升整体的竞争力,肯定是更好的,当然这也需要更多的人力物力资源。如果条件不允许,作为中小卖家就把更多精力聚焦到销量排序这一个维度上来,运营只需要盯住销量一个数据指标,其他的数据捎带着做,一样可以取得不错的效果。换句话说,如果电商运营只能做一件事,那就是紧紧盯住销量数据。之所以这么做是因为销量排序简单粗暴,我们的高考就可以理解为销量排序,只考察高考总分一个数据。换句话说只要能考过录取线,至于写不写作业、去不去上课都不作为录取依据,唯以高考总分论英雄。
数据与算法的运行机制
前文提到的产品相关的4个大的分类是买家购物的4个节点,同时也是淘宝平台排名机制动态运行的4个节点:
1.展现/曝光
2.访问/浏览
3.转化/互动/交流
4.成交/评价
从1到4为一个循环周期。
我们以1.展现为起点,产品曝光在买家面前,如果买家产生了兴趣,就会到达第二个阶段:点击访问、浏览产品的主图、详情、评价等;如果买家对产品比较认可,就会收藏、加购、下单付款,此时完成第三个阶段;卖家组织发货,快递送货,买家签收,如无退换货买家会确认收货,此时货款资金从支付宝转到卖家账户,完成交易的全流程,也就是完成了第四个阶段。然后平台根据2、3、4这三个阶段买家的数据反馈,来决定1,即产品展现的位置,于是开始一轮新的循环周期,这就是淘宝搜索的业务逻辑。
在这个循环过程中,由于每个产品的数据表现不尽相同,因此有的产品扶摇直上,有的产品掉头直下。
运营的核心:控制数据
数据决定了产品的生死,那么如何影响数据呢?数据又该如何经营呢?
运营人员的核心工作是控制数据,而数据是由买家的行为产生的,所以我们应当通过引导买家的行为来影响数据的增长。比如我们要收藏加购数据,会加上一句收藏加购优先发货;我们要点击率数据,会制作、优化产品主图,契合买家的预期,吸引买家的点击;我们要晒图评价数据,会制定晒图奖励的激励机制。
这些数据需要达到多少?运营人员控制数据的目标和参考系又是什么呢?
比较与竞争:数据高低产生的根源
当只有一个事物独立存在时,他并不存在好坏之说,好与坏都是相对的,都是来自比网较的结果。
身高180cm是高个子吗?高与不高是相对来说的,相比于小学生来说,180身高相当于巨人了,当站到NBA球员中间时,同样是180身高的这个人却瞬间变成了“小学生”。
某个产品月销5000件,这是销量高的产品吗?看同行,同行是最低1万件起步还是最高月销1000件。
数学语文英语三科都是96,这是尖子生吗?看同学,同学是双百分起步还是90分就算最高分。
所有的数据指标优秀与否,并没有一组固定不变的参考值,比如是500或是10000。在淘宝平台内,作为比较系,是取同行业的平均值作为参考值,每个细分行业都会有不同行业的特点,每个行业的标准也都来自这个行业的整体表现,因此相对公正、客观。淘宝的数据参考值有两个,一个是行业同层平均,另一个是行业同层优秀。同层优秀是指行业top 10%的平均值,假设如果总共有100人的话,就是前10名成绩的平均值;同层平均是指行业top 40%的平均值,假设如果总共有100人的话,就是指前40名成绩的平均值。
同层级是指平台根据店铺的销售额体量,划分了1-7共7个层级,跟打游戏一样划定青铜、黄金等段位,青铜对青铜、黄金对黄金,我们匹配的都是相近销售额体量,相同层级的竞争对手。无论行业大盘如何波动,同层级的商家都是相似的起点,就看同样环境下谁跑的更快、谁跑的更稳。
产品也好,店铺也好,是往上走还是往下走,对比两条参考线即可一目了然。比如,虽然产品数据每日飙升,但飙升速度小于行业均值速度,那么逆水行舟不进则退,当以行业均值作为水平线时,上升速度b就是在走下坡路了,如下图。
算法的目的就是为了排出高低。好与不好,数据说了算,数据是增还是减,买家说了算。数据其实是千万个买家共同决策的结果,而数据的高低又决定了排名的先后。
差距是如何产生的
拿淘宝平台来说,竞争从展现之初就开始了,我们以200个展现为例,模拟一下产品是如何一步步拉开差距的。
| 展现(曝光量):在统计时间内,商品在搜索被展现的次数。
这里模拟搜索结果页中的前40个产品,假设买家搜索关键词后都会展现在买家面前,而买家最终选择其中一个进行点击。200个展现换句话说就是有200个买家同时到达这个页面,这40个产品都被看到,但只有一个产品被点击,下面模拟200个买家到达搜索结果页后选择不同产品的结果。
我们可以发现,同样是第1页的位置,在同样是200个买家到达这个页面后,每个产品都拿到了200个展现量这个数据(40个产品都被看到了),强势的产品拿走了大量的点击量(如图最高20个),弱势的产品甚至一个展现量都没有,一些富得流油,一些饿得半死。40个产品同时到达了第1页的位置,但不同的数据表现将决定着他们下一次的排名位置。这40个产品中top3点击量分别是1号产品20个、5号产品18个、2号产品16个,对应的点击率为1号产品:10%、2号产品9%、3号产品8%。
经过这200个展现的周期后,按照点击率的降序排列,得到了新的排序,此时各个产品获取点击量的能力高下立见,同时也决定着这些产品今后的命运:把这40个产品的成绩放到全年级进行排名:尖子生被分到加强班冲击清华北大,优秀学生好好培养一下冲击一本线、普通学生加把劲争取考上二本、成绩差一点的学生考个好一点的专科,重点是别捣乱就行。如此循环往复清华北大的学霸和专科生的学渣就是这样拉开差距的,与其说是高考成绩区分了学霸和学渣,不如说日常的表现才是决定学霸与学渣的根本原因。
权重算法的回归
数据通过买家的比较产生,平台依据业务逻辑设计加权算法,最终通过产品的数据表现反过来概括产品的竞争能力。就好像年级总成绩排名并不是只求分数的高低,分数是一个学生学习能力的部分体现,最终是想用分数排名来实现对学生学习能力强弱的排名,最终的排序,实际上是综合竞争能力强弱的排序。
所有加权算法的原材料都是体现买家真实意愿的基础数据,比如点击量、支付人数等。数据通过比较产生,权重再依据数据概括竞争能力的强弱,加权算法的目的是通过数据勾勒出产品竞争能力轮廓,并以此作为决策依据,将竞争力强的产品排在前列。
得到好的排名并不是终极目标,拥有好的排名只完成了一半,另一半更重要的是证明自己配得上现在的排名,并且值得拥有更好的排名,值得到达更高的地方,这是一个不断自我证明的动态的过程。
人人都是审核员
派代也好,reddit也好,淘宝也好,最终每篇帖子每个产品都会被人工一一审核,只不过负责审核的这些人分布在全国各地,不领取任何报酬。其实这些人就是身为用户的你我,我们就是平台里负责审核帖子或产品的“工人”,我们是付出者。平台会设置检查点,并收集整理我们在各个检查点留下的数据,再通过数据的加权算法最终判定帖子或产品的高低好坏。每个用户“无私奉献”自己的时间去参与审核产品,同时每个用户又都可以享用万千用户共同审核的劳动成果,轻松找到经过“多次审核检验”的优质产品,此时我们又是受益者。这是互联网时代的伟大创举,人人奉献的同时人人享用,一种互帮互助、互惠互利的方式。
平台通过权重算法,让越来越多的人不断的反复验证——是骡子是马拉出来溜溜。真金不怕火炼,群众的眼睛是雪亮的,真正优秀的产品也一定会被挖掘出来,帖子也好,产品也好,他们优秀与否,时间会给出答案。