ТОТАЛНИ ДЕФЕКТИ

Философия на безкрайността, чудесата и политическата мода

ПОРЪЧАЙ ТУК

🎄 Коледно промо: 5 лв.

или търси в книжарниците!

Mod_Rewrite UserAgent play

Обновена на: 24 март 2022 г.

Благодарение на Васил, прочетох следната статия и се замислих. На работа сме имали проблеми с ботове и crawler-и, които по една или друга причина в кода на страницата, правят тежки заявки отново и отново, игнорирайки robots.txt. Нормална процедура би била блокиране рейнджа на бота, често просто едно query айпи. Уви, същото може да се направи и с mod_rewrite правилата в статията горе, но това, което исках да направя, е бенч – дали deny from x ще бъде по-зле от блок на useragent-и, или няма да има значение. При всички положения искам да шерна списъкът с агенти, предоставени от горепосочения източник, понеже са гъзарски:

(blexbot|mj12bot|masscan|photon|semrushbot|ahrefsbot|orangebot|moreover|exabot|zeefscraper|smtbot|yacybot|xovibot|cloudflare-alwaysonline|haosouspider|kraken|steeler|cliqzbot|linkdexbot|megaindex|sogou|yeti|siteLockspider|telesphoreo)

Вмятам, че целта на статията-източник е блокирането на Клаудфреските ботове за Always Online, които лийчат съдържание от определени страници.