网页去重算法及实战应用

作者:猪八逗科技
一、百度去重算法

(1)完全重复页面,布局、内容均相同;
(2)内容重复页面,内容相同、布局不同;
(3)布局相同页面,重要内容相同、布局不相同;
(4)部分相同页面,重要内容相同、布局不同;

二、改进策略

(1)内容
(2)模板:原创模板

三、传播模型

(1)信任传播模型:如新浪、搜狐等正规,大型网站
(2)非信任传播模型:如菠菜、灰色类非正规网站