设为首页
收藏本站
苹果站长站
Portal
讨论论坛
BBS
有问必答
Discuz! Board
›
门户
›
查看主题
苹果cms服务器负载100%,cpu100%的处理办法
发布者:
admin
|
发布时间: 2024-12-15 19:30
|
查看数: 78
|
评论数: 0
|
帖子模式
降低服务器负载以及防垃圾蜘蛛和爬虫教程
最近总有群友说自己负载天天100%和解析次数飞速用光的事,还查不到问题。
但经过群友的交流后发现,绝大多数都是蜘蛛(尤其是谷歌蜘蛛)爬的问题
这里放了一些ua黑名单规则,里面包含了谷歌蜘蛛(googlebot)以及必应蜘蛛(bingbot),谷歌蜘蛛小型测压器,必应只爬不收,其他的都是些垃圾蜘蛛和爬虫,默认屏蔽即可,如有误杀请自行移除,如果因为屏蔽导致掉权重的话我也不负责!
也建议使用robots.txt进行规范化管理蜘蛛爬站,具体可以百度一下robots规则的写法,同时也附赠了一份robots规则,但请注意,请自行根据自己站点的目录框架进行适配!不保证我的规则能和你们通用!如果规则不能完全适配就会导致蜘蛛怕错目录,严重影响蜘蛛信用进而掉权限!请自行适配自己的站点目录!!!
robots规则并不能防止垃圾蜘蛛爬站,因此建议略微放宽ua黑名单后,自行添加robots规则,当然小白不需要谷歌/bing蜘蛛带来的流量的话可以选择一刀切。(必应需要手动提交网址后才能收录,相对麻烦,我也没提交过收录所以直接切了必应,如有误杀请及时移除!)
robots规则:
User/agent: *
Disallow: /cache
Disallow: /images
Disallow: /inc
Disallow: /js
Disallow: /player
Disallow: /template
Disallow: /a
Disallow: /.
Disallow: /vod/play
Allow: /vod/type/id/*.html$
Allow: /vod/type/id/*/pg/*.html$
Allow: /vod/detail/id/*.html$
Allow: /vod/search$
Allow: /vod/list/id/*/pg/*/order/*/by/*/class/*/year/*/letter/*/area/*/lang/.html$
Allow: /gbook/index.html$
Sitemap: /rss/index.xml$
复制代码
宝塔ua黑名单规则
["(AhrefsBot|GoogleBot|aliyun|bingbot|crawler|CipaCrawler|commoncrawl|Digital AlphaServer|DomainCrawler|DotBot|dacongyun|daum|Epiphany|feedly|Go-http-client|GroceryHouse|greatdealshop|http-client|KOCMOHABT|ltx71|inoreader.com|msnbot|Miniflux|MJ12bot|magpie-crawler|mail.ru|Media Center PC 6.0|MSIE 6.0|MegaIndex.ru|Nimbostratus-Bot|Nexus 7 BuildNimbostratus|opensiteexplorer|pingbot|PhantomJS|Python-urllib|python-requests|python|php-market|Qwantify|rssbot|Scrapy|SemrushBot|subscribers|t.me|uptime|WinHttp|x09Chrome|YandexBot|zgrab|9.1.0.0 Safari|17.0.963.56|34.0.1847.116|41.0.2227.1|45.0.2454.93|57.0.2987.133 Safari|59.0.3071.115 Safari|535.11|20101213)"]
复制代码
最新评论
黑夜模式
快速发帖
返回列表
返回顶部