Discuz! Board 门户 查看主题

苹果cms服务器负载100%,cpu100%的处理办法

发布者: admin | 发布时间: 2024-12-15 19:30| 查看数: 78| 评论数: 0|帖子模式

降低服务器负载以及防垃圾蜘蛛和爬虫教程

最近总有群友说自己负载天天100%和解析次数飞速用光的事,还查不到问题。


但经过群友的交流后发现,绝大多数都是蜘蛛(尤其是谷歌蜘蛛)爬的问题
这里放了一些ua黑名单规则,里面包含了谷歌蜘蛛(googlebot)以及必应蜘蛛(bingbot),谷歌蜘蛛小型测压器,必应只爬不收,其他的都是些垃圾蜘蛛和爬虫,默认屏蔽即可,如有误杀请自行移除,如果因为屏蔽导致掉权重的话我也不负责!

也建议使用robots.txt进行规范化管理蜘蛛爬站,具体可以百度一下robots规则的写法,同时也附赠了一份robots规则,但请注意,请自行根据自己站点的目录框架进行适配!不保证我的规则能和你们通用!如果规则不能完全适配就会导致蜘蛛怕错目录,严重影响蜘蛛信用进而掉权限!请自行适配自己的站点目录!!!

robots规则并不能防止垃圾蜘蛛爬站,因此建议略微放宽ua黑名单后,自行添加robots规则,当然小白不需要谷歌/bing蜘蛛带来的流量的话可以选择一刀切。(必应需要手动提交网址后才能收录,相对麻烦,我也没提交过收录所以直接切了必应,如有误杀请及时移除!)


robots规则:
  1. User/agent: *
  2. Disallow: /cache
  3. Disallow: /images
  4. Disallow: /inc
  5. Disallow: /js
  6. Disallow: /player
  7. Disallow: /template
  8. Disallow: /a
  9. Disallow: /.
  10. Disallow: /vod/play
  11. Allow: /vod/type/id/*.html$
  12. Allow: /vod/type/id/*/pg/*.html$
  13. Allow: /vod/detail/id/*.html$
  14. Allow: /vod/search$
  15. Allow: /vod/list/id/*/pg/*/order/*/by/*/class/*/year/*/letter/*/area/*/lang/.html$
  16. Allow: /gbook/index.html$
  17. Sitemap: /rss/index.xml$
复制代码


宝塔ua黑名单规则

  1. ["(AhrefsBot|GoogleBot|aliyun|bingbot|crawler|CipaCrawler|commoncrawl|Digital AlphaServer|DomainCrawler|DotBot|dacongyun|daum|Epiphany|feedly|Go-http-client|GroceryHouse|greatdealshop|http-client|KOCMOHABT|ltx71|inoreader.com|msnbot|Miniflux|MJ12bot|magpie-crawler|mail.ru|Media Center PC 6.0|MSIE 6.0|MegaIndex.ru|Nimbostratus-Bot|Nexus 7 BuildNimbostratus|opensiteexplorer|pingbot|PhantomJS|Python-urllib|python-requests|python|php-market|Qwantify|rssbot|Scrapy|SemrushBot|subscribers|t.me|uptime|WinHttp|x09Chrome|YandexBot|zgrab|9.1.0.0 Safari|17.0.963.56|34.0.1847.116|41.0.2227.1|45.0.2454.93|57.0.2987.133 Safari|59.0.3071.115 Safari|535.11|20101213)"]
复制代码





最新评论