怎么防止网站被采集

4 sec read

最近公司一些独有的数据被竞争对手采集了。想了想有没有可以防止被采集的方法。自己想了下发现这个问题很难解决,下面是我自己想到的。

  1. 通过cookies防采集(这个没有,采集都是先获取cookies再执行采集的)
  2. 屏蔽IP(这个首先要获取对方的IP,执行起来比较麻烦)
  3. 请求次数判断(一段时间内请求多少次,则将该IP加入黑名单禁止访问或需要验证码访问。这样做很容易把搜索引擎也挡在门外,可以将搜索引擎的user-agent和IP加入白名单。如:Google robots 的 UA及 IP http://www.iplists.com/google.txt
  4. 采集一般不下载JS文件,使用JS判断,或使用AJAX,这个也会把搜索引擎挡在门外。

不知道谁还有更好的可行方法分享下。当然我首先想到的是向搜索引擎举报。

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

C语言学习:size_t

在学习C语言的时候,遇到了一个新的数据类型size_t,截止目前也没有完全理清这个类似的具体场景及出现的原因。
44 sec read

C语言学习:main()函数的正确写法

C语言虽然是一门古老的语言,但是其标准一直在完善,所以很多以前支持的语法在到当前已经不能在使用了。 C语言的版
41 sec read

Scipy数学函数的Scala实现

最近在推进项目的时候,遇到需要将线下的Python代码转化成线上的集群代码,由于机器代码环境是Scala,所以
4 min read

2 Replies to “怎么防止网站被采集”

    1. URL没有规则也是可以采集的,可以通过上层页面来获取下层页面的链接。这个只能防普通的程序采集。

发表评论

电子邮件地址不会被公开。 必填项已用*标注