Robots.txt
Файл с препоръки за роботи за търсене. Например, не индексирайте определени страници от сайта. Поставен в основната директория.
Robots.txt е текстов файл, който уеб администраторите създават, за да инструктират уеб роботите (обикновено роботи на търсачките) как да обхождат страници на уебсайта си. Файлът robots.txt е част от протокола за изключване на роботи (REP), група от уеб стандарти, които регулират как роботите обхождат мрежата, достъпват и индексират съдържание и предоставят това съдържание на потребителите. REP също така включва директиви като мета роботи , както и инструкции за страница, поддиректория или в целия сайт за това как търсачките трябва да третират връзките (като „следване“ или „nofollow“).
На практика файловете robots.txt показват дали определени потребителски агенти (софтуер за обхождане на уеб) могат или не могат да обхождат части от уебсайт. Тези инструкции за обхождане са определени чрез „забраняване“ или „разрешаване“ на поведението на определени (или всички) потребителски агенти.
Основен формат:
Потребителски агент: [име на потребителски агент]Забраняване: [URL низ да не се обхожда]
Заедно тези два реда се считат за пълен файл robots.txt — въпреки че един файл robots може да съдържа няколко реда потребителски агенти и директиви (т.е. забранява, разрешава, забавяне на обхождането и т.н.).
Как работи robots.txt?
Търсачките имат две основни задачи:
- Обхождане в мрежата за откриване на съдържание;
- Индексиране на това съдържание, така че да може да се обслужва на търсещите, които търсят информация.
За да обхождат сайтове, търсачките следват връзки, за да стигнат от един сайт до друг – в крайна сметка, обхождайки много милиарди връзки и уебсайтове. Това поведение на пълзене понякога е известно като „паяк“.
След като пристигне в даден уебсайт, но преди да го отвори, роботът за търсене ще потърси файл robots.txt. Ако намери такъв, роботът първо ще прочете този файл, преди да продължи през страницата. Тъй като файлът robots.txt съдържа информация за това как търсачката трябва да обхожда, информацията, намерена там, ще инструктира по-нататъшни действия на робота на този конкретен сайт. Ако файлът robots.txt не съдържа директиви, които забраняват активността на потребителския агент (или ако сайтът няма файл robots.txt), той ще продължи да обхожда друга информация на сайта.
Основни правила на robots.txt, които трябва да се спазват:
- За да бъде намерен, файл robots.txt трябва да бъде поставен в директорията от най-високо ниво на уебсайт.
- Robots.txt е чувствителен към малки и големи букви: файлът трябва да бъде наречен „robots.txt“ (не Robots.txt, robots.TXT или друго).
- Някои потребителски агенти (роботи) може да изберат да игнорират вашия файл robots.txt. Това е особено често срещано при по-злобни роботи като роботи за злонамерен софтуер или стъргачи на имейл адреси.
- Файлът /robots.txt е публично достъпен: просто добавете /robots.txt в края на всеки основен домейн, за да видите директивите на този уебсайт (ако този сайт има файл robots.txt!). Това означава, че всеки може да види какви страници правите или не искате да бъдат обхождани, така че не ги използвайте, за да скриете личната потребителска информация.
- Всеки поддомейн в основен домейн използва отделни файлове robots.txt. Това означава, че и blog.example.com, и example.com трябва да имат свои собствени файлове robots.txt (в blog.example.com/robots.txt и example.com/robots.txt).
- Като цяло е най-добрата практика да се посочи местоположението на всякакви карти на сайтове, свързани с този домейн, в долната част на файла robots.txt. Ето един пример: