XML  HTML  企业网站建设     RSS订阅深圳网站建设,网络营销,深圳网络推广,深圳seo,草根网络创业者
你的位置:首页 » 网络推广 » 正文

诺伊网博客站被采集镜像的解决方案及举报对方网站的方法

选择字号: 超大 标准 admin 发布于2019-07-28 属于 网络推广 栏目  0个评论 116人浏览

今天,就刚刚发现深圳网站推广诺伊网博客站被人采集了,有个网站抄袭了不少诺伊网的文章,立即就开始想办法处理,于是开始了慢慢修复道路,把网站搞了一下仿采集。因为小编在博客网上单独发的一篇原创文章《为了钱丢了梦想最后去了叙利亚打仗》,结果目前还没收录,倒是采集网站的被收录了,本文目前仅仅发布到了知乎网站上了,其他网站都没有发布,而且严禁任何转载,所以仅供百度一搜,发现了这个网站,如下图:

QQ截图20190728182236.jpg

网站镜像这个问题稍微网站做的有点流量了一般都会遇到,毕竟树大招风嘛,有些同行就是见不得你网站做的好,想一些外路子去破坏你的网站,其中之一就是镜像你的网站。


我大致搜索了一下关于镜像网站的解释以及解释,它和主站并没有太大差别,或者可算是为主站作的后备措施。有了镜像网站的好处是:如果不能对主站作正常访问(如某个服务器死掉或出了意外),但仍能通过其它服务器正常浏览。相对来说主站在速度等各方面比镜像站点略胜一筹。


于是,我对比了一下,采集我文章的这个网站不太像镜像情况,很可能是采集。


如下图:

   从SEO角度看,权重不高的小站、新站,被镜像意味着有其它网站和你的网站内容基本一样,搜索引擎有可能认为你的网站不是原版,镜像网站才是,所以把排名、流量给了镜像网站。


另一个烦人的事是,镜像网站一般来说并不是要和你提供同样的产品或服务,而是把用户转到赌博、色情等服务上去。有的是通过JS把赌博、色情内容显示给用户,有的直接把用户转向到另外的网站上去。



如何防止网站内容被采集(后面有本站最佳仿采集和举报解决方案)


很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,我看看网上很多的各种方法解决,

      1、限制IP地址单位时间的访问次数

  分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。

  弊端:一刀切,这同样会阻止搜索引擎对网站的收录

  适用网站:不太依靠搜索引擎的网站

  采集器会怎么做:减少单位时间的访问次数,减低采集效率


  2、屏蔽ip

  分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。

  弊端:似乎没什么弊端,就是站长忙了点

  适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人

  采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。


  3、利用js加密网页内容

  Note:这个方法我没接触过,只是从别处看来

  分析:不用分析了,搜索引擎爬虫和采集器通杀

  适用网站:极度讨厌搜索引擎和采集器的网站

  采集器会这么做:你那么牛,都豁出去了,他就不来采你了


  4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中

  分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。

  适用网站:所有网站

  采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。


  5、用户登录才能访问网站内容

  分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。

  适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站

  采集器会怎么做:制作拟用户登录提交表单行为的模块


  6、利用脚本语言做分页(隐藏分页)

  分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。

  适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识

  采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。


  7、防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables("HTTP_REFERER") )

  分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。

  适用网站:不太考虑搜索引擎收录的网站

  采集器会怎么做:伪装HTTP_REFERER嘛,不难。


  8、全flash、图片或者pdf来呈现网站内容

  分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道

  适用网站:媒体设计类并且不在意搜索引擎收录的网站

  采集器会怎么做:不采了,走人


  9、网站随机采用不同模版

  分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。

  适用网站:动态网站,并且不考虑用户体验。

  采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。


  10、采用动态不规则的html标签

  分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以< div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果次页面的html标签内空格数随机,那么

  采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。

  适合网站:所有动态且不想遵守网页设计规范的网站。


  采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。


比如用JS检测一下正在被打开的页面是不是在自己的域名上,是的话正常显示,不是的话(域名是镜像网站时)强迫转向到自己域名:


if (window.location.hostname !== ‘www.nuobg.com’){


window.top.location.href = ‘https://www.nuobg.com/’;


}

不过这种方法只对用户有效,搜索引擎不执行JS,还是会抓取到镜像内容。也可以用PHP写脚本判断和转向。

QQ截图20190728191953.jpg

诺伊网博客站采用仿采集方法及举报方法


小编看了看各种方法,晕了,而且目前来看仅仅是采集文章而已,还不知道是软件采集的还是手工采集的,加JS代码等恐怕不太靠谱,而且博客站已经够多的各种JS代码了,同时,万一浏览器禁止JS执行的话,很容易失效,


所以:小编不得不找其他方法来解决,

因为用的是zblog系统,所以,直接后台找相关插件解决。

经过搜索发现有一款防采集插件,如下截图:

QQ截图20190728185717.jpg

直接下载安装,然后简单按照插件的设置,进行设置了一下,该插件的防止采集的方法 , 在文章底部随机显示10种随机版权更加安全, 火车头是根据标签的结束和开始进行识别内容采集的,如果在文章底部随机显示多种版权文字,采集者就需要使用火车头的替换功能一条一条进行配置,第一这样增加了采集者的时间成本;第二采集者是不知道您有多少条版权随机的,从而采集走您的版权,渐渐的给您无形中做了外链,百度抓取到他的页面的时候,也可以根据版权信息的文字识别出文章并非采集者原创的,从而不会导致权重的丢失!!! 


另外本站同时举报了该网站,

QQ截图20190728191659.jpg

点击完举报按钮后,开始选择和填写信息内容,填写举报内容,注意:填写举报内容字数不能超过500字,别打了一堆最后提交不了,还得删除。


主要提交举报自己的原创文章地址,被采集镜像的网址。

QQ截图20190728191528.jpg

举报填写完成后,然后就开始坐等处理就行了,这两手下来应该就差不多了。

QQ截图20190728191707.jpg

除了这个举报,如果不行,再用其他账号继续举报,一般情况下很容易举报成功。


目前本站暂时先使用这种插件进行仿采集吧,其他方法以后再慢慢研究


请勿私自转载诺伊网博客的原创文章

标签:网站被镜像,网站被采集,网站防采集,网站防镜像,

亲!深圳网站建设,网站运营,seo,草根创业博客请您点赞
  • 流泪

    11

  • 打酱油

    31

  • 开心

    35

  • 点赞

    34

  • 差评

    1

猜你喜欢

额 本文暂时没人评论 来添加一个吧

发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门文章
热评文章
    随机文章 | 热门文章 | 最新文章
随机文章
扫一扫,加我为微信好友 加我为微信好友

博主承接网站建设业务

域名注册 香港虚拟主机

免费源码 B2B信息发布

客服: 客服

技术: 技术

售后: 售后

电话:075536891206

手机:13530151322

手机:13632543616

在线联系