<meter id="nz5hf"><strike id="nz5hf"><rp id="nz5hf"></rp></strike></meter><dfn id="nz5hf"></dfn>

<cite id="nz5hf"><delect id="nz5hf"></delect></cite>
    <menuitem id="nz5hf"><span id="nz5hf"><track id="nz5hf"></track></span></menuitem>

      <output id="nz5hf"></output>
      <menuitem id="nz5hf"></menuitem>
      青島網站建設新聞資訊

      Nginx環境屏蔽網絡爬蟲YisouSpider

      時間:2023-06-16 已閱讀:473次 | 作者:青島網站建設

      首頁>新聞資訊>建站知識
      Nginx如何禁止空UA和特定User Agent垃圾爬蟲訪問網站,網站目錄以及特定類型的文件
      寶塔面板搭建的網站查看網站日志時:我們會經常發現一些空UA采集,或者垃圾爬蟲高頻的訪問,導致CPU消耗過高,其實通過User Agent的特征,我們可以禁止那些惡意的無效的訪問,Nginx環境如何禁止特定爬行工具、空UA、特定UA訪問我們的網站:
      下面的四項都是nginx配置在server內
      1、禁止指定UA及UA為空的訪問
      if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
           return 403;
      }
      2、禁止非GET|HEAD|POST方式的抓取
      if ($request_method !~ ^(GET|HEAD|POST)$) {
          return 403;
      }
      3、禁止Scrapy等工具的抓取
      if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
           return 403;
      }
      4、此方法最簡單粗暴,直接網站 Nginx 配置文件里面server內添加以下的規則,針對服務器上經常被掃描的文件后綴,直接返回404,資源下載網站請根據情況調整規則
          # 禁止訪問指定文件
          location ~ .(zip|rar|sql|tar|gz|7z)$ {
              return 404;
          }
      寶塔面板的Nginx環境,登錄寶塔面板后臺 - 網站 -網站設置 - 配置文件 里面,添加你需要的代碼:

      5、在網站根目錄里建立robots.txt,添加如下內容

      User-agent: YisouSpider
      Disallow: / 
      6、禁止某個目錄執行腳本
      【單nginx下有效,如使用了nginx+apache組合,php交給apache處理,需要通過.htaccess進行限制】,添加到location ~ .php  之前
          location ~* ^/(uploads|templets|data)/.*.(php|php5)$ {
              return 444;
          }
      7、屏蔽某個IP或IP段
          #屏蔽192.168.5.23這個IP
          deny 192.168.5.23;
          #屏蔽192.168.5.* 這個段
          deny 192.168.5.0/24;
      8、此種方法比較暴力,就是以彼之道,還施彼身,利用偽靜態規則進行跳轉下載,比如:掃描根目錄下的 /web.rar,那么就會觸發規則跳轉到大文件下載地址。
      打開網站 Nginx 配置文件,將規則加入 server 內,示例:
      server {
          ...
          # 專治掃描戶
          rewrite .rar/?$ http://speedtest.tele2.net/100GB.zip permanent;
          rewrite .tar/?$ http://speedtest.tele2.net/100GB.zip permanent;
          rewrite .zip/?$ http://speedtest.tele2.net/100GB.zip permanent;
          rewrite .sql/?$ http://speedtest.tele2.net/100GB.zip permanent;
          rewrite .gz/?$ http://speedtest.tele2.net/100GB.zip permanent;
          rewrite .7z/?$ http://speedtest.tele2.net/100GB.zip permanent;
          # 或者使用
          rewrite .(rar|zip|tar|sql|gz|7z)/?$ http://speedtest.tele2.net/100GB.zip permanent;
          ...
      }
      如果覺得 100GB 響應時間有點長,那么可以替換小文件下載地址:
      10G:
      新加坡: http://lg-sin.fdcservers.net/10GBtest.zip
      日本: http://lg-tok.fdcservers.net/10GBtest.zip
      香港: http://lg-hkg.fdcservers.net/10GBtest.zip
      1G:
      日本:http://hnd-jp-ping.vultr.com/vultr.com.1000MB.bin
      新加坡:https://sgp-ping.vultr.com/vultr.com.1000MB.bin
      如何測試效果?
      Linux的vps,比如Centos7 使用Xshell軟件連接上VPS。(如何使用Xshell通過SSH連接管理VPS)
      使用使用下面的命令測試一下就行:
      模擬UA為空的抓?。?br data-filtered="filtered" style="font-family: "Microsoft YaHei", Arial, "Heiti SC"; font-size: medium; white-space: normal; background-color: rgb(255, 255, 255);"/>curl -I -A '' https://www.78moban.com
      模擬垃圾爬蟲AhrefsBot抓?。?br data-filtered="filtered" style="font-family: "Microsoft YaHei", Arial, "Heiti SC"; font-size: medium; white-space: normal; background-color: rgb(255, 255, 255);"/>curl -I -A 'AhrefsBot' https://www.78moban.com
      模擬AhrefsBot訪問返回:HTTP/1.1 403 Forbidden 則設置生效訪問被攔截!
      模擬百度蜘蛛的抓?。?br data-filtered="filtered" style="font-family: "Microsoft YaHei", Arial, "Heiti SC"; font-size: medium; white-space: normal; background-color: rgb(255, 255, 255);"/>curl -I -A 'Baiduspider' https://www.78moban.com
      模擬百度蜘蛛訪問則成功返回:HTTP/1.1 200 OK
      表示百度的爬蟲是正??梢栽L問你的網站。
      附一部分垃圾垃圾爬蟲和掃描
      FeedDemon 內容采集
      BOT/0.1 sql注入
      CrawlDaddy sql注入
      Java 內容采集
      Jullo 內容采集
      Feedly 內容采集
      UniversalFeedParser 內容采集
      ApacheBench cc攻擊器
      Swiftbot 無用爬蟲
      YandexBot 無用爬蟲
      AhrefsBot 無用爬蟲
      YisouSpider 無用爬蟲
      jikeSpider 無用爬蟲
      MJ12bot 無用爬蟲
      ZmEu phpmyadmin 漏洞掃描
      WinHttp 采集cc攻擊
      EasouSpider 無用爬蟲
      HttpClient tcp攻擊
      Microsoft URL Control 掃描
      YYSpider 無用爬蟲
      jaunty wordpress爆破掃描器
      oBot 無用爬蟲
      Python-urllib 內容采集
      Indy Library 掃描
      FlightDeckReports Bot 無用爬蟲
      Linguee Bot 無用爬蟲
      二維碼
      掃描二維碼手機查看該文章

      文章引用:http://m.cursosdescomplicoupgrade.com/news/webzhishi/1404.html

      相關資訊

      Copyright ? 2011-2024 青華互聯-青島青華銳思網絡科技有限公司 m.cursosdescomplicoupgrade.com All Rights Reserved
      魯公網安備37020202000800號 魯ICP備14020555號-4 網站地圖 百度地圖
      为什么女生越叫男生就越有劲_国产精品无卡毛片视频_航空乘女厕撒尿偷拍视频_丝袜老师教室自慰摸下面

      <meter id="nz5hf"><strike id="nz5hf"><rp id="nz5hf"></rp></strike></meter><dfn id="nz5hf"></dfn>

      <cite id="nz5hf"><delect id="nz5hf"></delect></cite>
        <menuitem id="nz5hf"><span id="nz5hf"><track id="nz5hf"></track></span></menuitem>

          <output id="nz5hf"></output>
          <menuitem id="nz5hf"></menuitem>