网站文章推荐算法之一种简单权重体系设计

广告位招租
扫码页面底部二维码联系

在网站中,我们希望把一些热门的文章推荐给【原创内容,转载请注明出处】【版权所有,侵权必究】读者,如何来确定哪些文章是真正热门的呢?【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】我们用一个热度值来表示,而这个热度值,如本文版权归作者所有,未经授权不得转载。【本文受版权保护】果用于排序,则可以称之为权重。

【版权所有】唐霜 www.tangshu【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。ang.net【版权所有】唐霜 www.tangshu著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】ang.net

权重是一个经过计算的值,主要用于检索结果【原创不易,请尊重版权】【转载请注明来源】排序。

本文作者:唐霜,转载请注明出处。【作者:唐霜】

网站中并不需要搜索引擎一样非常精确的文章本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net排序,因此,我们可以认准几个重要参数,作转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。为衡量权重的要素,我在自己的设计中,主要著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】使用了4个参数:浏览量、点赞数、回复数、【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】发布时间。

著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】

很多网站采用单一的要素,比如只采用浏览量未经授权,禁止复制转载。【本文受版权保护】作为权重,就会出现刷浏览的情况,比如一些本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】用户投稿的文章,投稿者为了让自己的文章排未经授权,禁止复制转载。【原创不易,请尊重版权】在前面,就不停的刷浏览。当然,这种情况对【转载请注明来源】【未经授权禁止转载】于个人站影响并不是很大。但是,综合考虑多著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】个要素,还是有一定价值。

【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshu原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】ang.net

浏览量大的,不一定真的是好文章,这里面涉原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net及到一个马太效应的问题。当由于某篇文章在【转载请注明来源】未经授权,禁止复制转载。一些情况下,浏览量上去了,后面进来的读者【未经授权禁止转载】原创内容,盗版必究。就会继续点击阅读,又增长了其浏览量,这样【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。周而复始,这篇文章可能永远都是浏览量第一【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。

【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshu本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】ang.net

当然,这也不是没有解决办法,比如你可以要【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。求,必须是最近一个月的文章才能参与排名。【转载请注明来源】【原创内容,转载请注明出处】但是,这也可能埋没好文章。

原创内容,盗版必究。未经授权,禁止复制转载。【本文首发于唐霜的博客】

如何避免马太效应呢?就是使用综合的衡量要【本文首发于唐霜的博客】原创内容,盗版必究。素。让各个要素之间的影响差距减小,甚至人【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】为的增加一个额外的值,使得即使浏览量极大本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】,也不会完全占据主导。

本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.n【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】et 获取更多精彩内容】转载请注明出处:www.tangshua本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】ng.net

好了,下面来进行具体解释吧。(权重为10【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。分制)

【未经授权禁止转载】【原创内容,转载请注明出处】【访问 www.tangshuang.n【作者:唐霜】【原创内容,转载请注明出处】et 获取更多精彩内容】【版权所有,侵权必究】

权重 = 浏览量占比*2.5 + 评论数原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。占比*2.5 + 点赞数占比*3 + 时本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。间值占比*2

【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。
未经授权,禁止复制转载。转载请注明出处:www.tangshua原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】ng.net

占比是什么?就是一个比值。怎么计算?就是【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】用当前文章的值,比上最大值。比如浏览量最【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】大的文章的浏览量为1200次,而当前文章著作权归作者所有,禁止商业用途转载。【作者:唐霜】的浏览量为600次,那么浏览量占比就是 转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net600/1200 = 0.5 。

【版权所有】唐霜 www.tangshu转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.netang.net【原创内容,转载请注明出处】原创内容,盗版必究。

为什么要以最大的浏览量作为参照进行占比计转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。算呢?因为这样就可以让这个最大浏览量的文【转载请注明来源】【作者:唐霜】章比值为1,从而获得浏览量权重部分的满分原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。

【版权所有】唐霜 www.tangshu【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】ang.net【作者:唐霜】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshu【转载请注明来源】【关注微信公众号:wwwtangshuangnet】ang.net

为什么系数要按2.5、2.5、3、2来进原创内容,盗版必究。【转载请注明来源】行分配呢?这就是我设计的权重系数,当然,【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。你也可以根据你的需要来重新设定,总之所有本文作者:唐霜,转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】系数加起来为10(方便计算,你也可以设计【转载请注明来源】本文版权归作者所有,未经授权不得转载。为5分制)。

【版权所有,侵权必究】【原创不易,请尊重版权】【关注微信公众号:wwwtangshua【版权所有,侵权必究】【本文首发于唐霜的博客】ngnet】

这样的设计可以减弱马太效应的影响,但是也【未经授权禁止转载】【关注微信公众号:wwwtangshuangnet】不可能完全消除,比如某篇文章浏览量比较大原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】,评论数和点赞数肯定也会比较多,评论和点未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。赞一定是要先浏览才会进行的。如果能够找到本文作者:唐霜,转载请注明出处。【作者:唐霜】更多的一些要素,相互之间没有影响就更好了【版权所有,侵权必究】【本文首发于唐霜的博客】

未经授权,禁止复制转载。【转载请注明来源】转载请注明出处:www.tangshua【原创内容,转载请注明出处】【关注微信公众号:wwwtangshuangnet】ng.net

时间占比也很重要,一篇文章发布的时间越久【版权所有,侵权必究】【转载请注明来源】远,它的时间占比权重就越低,但是因为它不【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】涉及用户的行为,所以权重系数分配肯定也比著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】较小。

【版权所有】唐霜 www.tangshu转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.netang.net本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。

根据这种思维,你可以设计自己的权重体系,【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。加入更多的要素,比如把用户停留时间、收藏【版权所有】唐霜 www.tangshuang.net【原创不易,请尊重版权】量、二次阅读次数、分享到朋友圈次数等等加【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】进来,当然,这是一个比较大的体系,如果你【本文首发于唐霜的博客】【转载请注明来源】想去这样弄的话,欢迎与我讨论。

【版权所有】唐霜 www.tangshu【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。ang.net【本文受版权保护】【本文首发于唐霜的博客】【本文受版权保护】

2015-05-10 15257

为价值买单,打赏一杯咖啡

本文价值152.57RMB
已有2条评论
  1. Salivaxiu 2021-05-22 00:07

    时间占比这块,有个不明白的地方,如果按照这个网站存在时间最长的文章,有180天,一个新文章,出现了3天,3/180 肯定还是小于 180/180 并没有降低权重,反而还升高了呀。

    • 否子戈 2021-05-28 13:09

      见公众号回复