雅泽SEO

毕文权浅谈seo算法规则

雅泽

文章首发于百度论坛:毕文权

Jaccard相似度:

首先要提取标题或者内容特征作为相似性判断,要通过标题分词或者TF-IDF进行提取特征。

原理A文章与B文章中交集的字数除以并集的字数。

以标题分词为例:

A文章:电脑 蓝屏 怎么 解决

B文章:电脑 蓝屏 原因 什么

结果0.66这个系数则是A文章与B文章的相似度,越接近1证明内容相似度越高。


Simhash:

内容去重最常用的算法,基本大厂都是用,占用小速度快,支持海量数据,10亿内容占用内存才100MB。

首先整个内容,通过分词提取特征(特征提取一般是几句话或topK),将特征词进行运算为64字节二进制,每个特征词分配不同权重,再将全部特征词的64字节二进制合并降维,通过汉明距离进行两个64字节比对,小于等于3则是重复内容。

弊端也是很严重的,比如准确率80%,所以会出现漏网之鱼,但是性能高速度快,应对每日增量很好用。


内容推荐算法

不论是图片、文字、视频机器并不知道有用户需求,因此就需要把内容推荐给一部分少量的用户群体,来检测用户是否点击、观看完整、跳出、收藏评论等等,进行判断内容是否有需求,有需求则认为内容是有质量的给予更多曝光,进入下一阶段推送流量池。

不论是搜索引擎或短视频自媒体平台都有这类算法。


以搜索引擎为例:

1、 当内容秒收录后,给予一段时间排名,过一段时间消失就是进行这类算法分析。

2、 资源平台的“流量与关键词”经常看到,有展现和点击,但是自己搜索不到,也是如此。

以百家号/自媒体/短视频为例:

1、 将内容或视频第一轮推送给200人进行分析,符合一定系数,进行第二轮推送推送给1000人,以此类推,推送第N轮不符合系数停止推送。

2、 如果视频内容每次推荐几十或几百,就要考虑自己的内容质量了,很多人高兴转型自媒体,每天小有播放量,其实这个播放量算法给的


协同过滤的推荐算法

其实协同过滤用途很多,比如百家号自媒体推荐。记录用户的经常访问的内容,作为喜欢这类内容的特征,通过以下方式来推荐喜欢和可能喜欢的内容。

A用户:喜欢橘子、西瓜、芒果 不喜欢菠萝、榴莲。

B用户:喜欢西瓜、橘子、苹果 不喜欢荔枝、菠萝。

通过算法协同算法可以得出

A用户可能喜欢苹果,不喜欢荔枝。

B用户可能喜欢芒果,不喜欢榴莲。

通常文字内容通过标题内容提取特征,视频择通过标签标题来提取特征推荐。更复杂的系统使用年龄段,性别,学历等等推荐,这就是大家常说的大数据。

用户行为推荐算法

根据用户搜索行为与点击行为对用户进行分析,当用户点击某个搜索结果时候,这篇内容对用户有需求,解决了用户的问题,没有跳出点击其他搜索结果页其他站点,搜索则会认为内容是优质的有需求的

超链接有关算法

以前搜索引擎无法知道内容用户是否喜欢,因此通过超链接来分析,不过这类算法都被淘汰了,容易作弊,通过友链外链堆砌即可,某些产业来讲十分容易。

不论百度还是其他搜索引擎已经都没有与外链友链有关的工具。

2015年7月3日发布的《超链算法升级,外链拒绝功能下线》 提到“站点进行外链建设可满足被搜索引擎蜘蛛发现收录的需求,和超链权重计算的需求。但目前百度仅信任非常小范围内的优质重要外链,站点只要获得一些重要的、基本内容相关站点的超链即可满足需求。在这一点上,PC端与移动端是相互贯通的。百度站长平台在此呼吁各位站点,不要再为外链浪费时间与金钱了。”

其中“信任非常小范围内的优质重要外链”可能就是几个大平台站带,内容可控,作弊几率小

公告地址:https://ziyuan.baidu.com/wiki/407

PageRank算法:

多个URL链接指向自己页面,来表明此页面拥有大量用户分享是优质页面!

Hilltop算法:

Hilltop是PageRank的升级版,因为多个指向URL链接可能不相关,所以增加了一层分析页面是否相关,来判断页面是否是优质页面!

HITS算法:

是页面重要性分析算法,适用于内、外链接算法!

“其他页面指向此网页链接”和“此网页指向其他链接”,会给此网页分配“内容权重”和“链接权重”,通过页面与页面之间的相互连接,相互传递来分析内容权威度和质量,页面被其他页面引用越多,质量越高。

站点信任表现算法

TrustRank算法:

主要观察内容类型,内容独特性,内容原创,内容更新频率,站点稳定,站点40X/50X错误数量,站点历史等等来提高网站权威性,会增加收录和排名。

上一篇:百度增强对https页面抓取力度

下一篇:没有了!

发表评论