Z naszych doświadczeń wynika, że sensowną metodą blokowania robotów po user agent jest lista niechcianych robotów. W związku z tym procesowaliśmy
regexem archiwum logów różnorodnych stron internatowych z okresu ostatnich 10 lat. Następnie napisaliśmy specjalny program, który dobrał części wspólne nazw robotów tak, żeby plik był jak najkrótszy. Efektem tego jest lista ponad 1800 robotów, których nie chcemy.
tab-studio.com, 31.12.2017
To może tylko uściślę, że nie było mowy o tym, że
regeksy są generalnie złe i nigdy żadnego nie używać. Było o tym, że biegunka regeksowa to choroba. Zły i nadużywany
regex to za dużo fałszywych pozytywnych i negatywnych. Czyli tylko więcej chaosu. A chaosu nie chcemy, c'nie?
;-) twitter.com, 14.10.2020