Як правильно налаштувати файл robots txt Як редагувати файл robots txt




Файл robot.txt – необхідний більшості сайтів.

Кожен SEO-оптимізатор повинен розуміти зміст цього файлу, а також вміти прописувати найзатребуваніші директиви.

Правильно складений robots покращує становище сайту в пошуковій видачі і, серед інших методів просування, є ефективним інструментом SEO.

Щоб розібратися в тому, що таке robot.txt і як він діє, згадаємо, як працюють пошукові системи.

Щоб перевірити його наявність, введіть кореневий домен в адресний рядок, потім додайте /robots.txt в кінець URL-адреси.

Наприклад, файл робот Moz знаходиться за адресою: moz.com/robots.txt. Вводимо і отримуємо сторінку:

Інструкції для «робота»

Як створити файл robots.txt?

3 типи інструкцій для robots.txt.

Якщо ви виявили, що файл robots.txt відсутній, створити його нескладно.

Як було сказано на початку статті – це звичайний текстовий файлу кореневому каталозі сайту.

Його можна зробити через адмін-панель або файл-менеджер, за допомогою якого програміст працює із файлами на сайті.

У тому, як і що там прописувати, ми розберемося під час статті.

Пошукові системи отримують із цього файлу інструкції трьох типів:

  • сканувати все, тобто повний доступ(Allow);
  • сканувати не можна нічого – повна заборона (Disallow);
  • сканувати окремі елементи не можна (зазначено які) – частковий доступ.

На практиці це має такий вигляд:

Зверніть увагу, сторінка все одно може потрапити у видачу, якщо на неї встановили посилання на цьому сайті або поза ним.

Щоб краще розібратися в цьому, давайте вивчимо синтаксис цього файлу.

Синтаксис Robots.Txt

Robots.txt: як він виглядає?

Важливі моменти: потрібно завжди пам'ятати про robots.

Сім загальних термінів, які найчастіше зустрічаються на сайтах.

У найпростішій формі робот має такий вигляд:

User agent: [ім'я системи, для якої ми пишемо директиви] Disallow: Sitemap: [вказуємо, де у нас лежить карта сайту] # Правило 1 User agent: Googlebot Disallow: /sitemap.xml

Разом ці три рядки вважаються найпростішим robots.txt.

Тут ми заборонили роботу індексувати URL: http://www.nashsite.com/prim1/ і вказали де знаходиться карта сайту.

Зверніть увагу: у файлі robots набір директив для одного користувача агента (пошуковика) відокремлений від набору директив для іншого розривом рядка.

У файлі з кількома директивами для пошукових системкожну заборону або дозвіл застосовується лише до пошукової системи, зазначеної в цьому конкретному блоці рядків.

Це важливий момент, і про нього не можна забувати.

Якщо файл містить правила, які застосовуються до кількох користувачів агентів, система буде віддавати пріоритет директивам, які прописані конкретно для зазначеного пошуковика.

Ось приклад:

На ілюстрації вище – для MSNbot, discobot та Slurp прописані індивідуальні правила, які працюватимуть лише для цих пошукачів.

Всі інші агенти користувача слідують загальним директивам у групі user-agent: *.

Синтаксис robots.txt зовсім не складний.

Існує сім загальних термінів, які часто зустрічаються на сайтах.

  • User-agent: специфічний веб-пошуковик (бот пошукової системи), якому Ви даєте інструкції обходу. Список більшості користувачів агентів можна знайти тут. Усього в ньому 302 системи, з яких найбільш актуальними є дві – Google і Яндекс.
  • Disallow: команда заборони, яка вказує агенту, що не потрібно заходити на URL-адресу. Для кожного URL-адреси дозволено лише один рядок «disallow».
  • Allow (застосовується лише для Googlebot): команда повідомляє боту, що він може отримати доступ до сторінки або підпапки, навіть якщо її батьківська сторінка або підпапка були закриті.
  • Crawl-delay (затримка сканування): скільки мілісекунд пошуковик повинен чекати перед завантаженням та обходом вмісту сторінки.

Зверніть увагу – Googlebot не підтримує цю команду, але швидкість сканування може бути встановлена ​​вручну. Google Search Console.

  • Sitemap: Використовується для виклику розташування будь-яких XML-карток, пов'язаних з цією URL-адресою. Ця команда підтримується лише Google, Ask, Bing та Yahoo.
  • Host: ця директива вказує на основне дзеркало сайту, яке варто враховувати під час індексації. Його можна прописати лише один раз.
  • Clean-param: команда використовується для боротьби з дублюванням контенту при динамічній адресації.

Регулярні вирази

Регулярні вирази: як вони виглядають та що позначають.

Як дозволяти та забороняти сканувати в robots.txt.

Насправді файли robots.txt можуть розростатися і ставати досить складними і громіздкими.

Система дає можливість використовувати регулярні вирази, щоб забезпечити необхідний функціонал файлу, тобто гнучко працювати зі сторінками та підпапками.

  • * є підстановним символом, що директива працює для всіх пошукових ботів;
  • $ відповідає кінцю URL-адреси чи рядка;
  • # застосовується для коментарів розробників та оптимізаторів.

Ось кілька прикладів robots.txt для http://www.nashsite.com

URL-адреса файлу robots.txt: www.nashsite.com/robots.txt

User-agent: * (тобто для всіх пошукових систем) Disallow: / (сліш позначає кореневий каталог сайту)

Ми щойно заборонили всім пошуковикам сканувати та індексувати сайт повністю.

Як часто потрібна така дія?

Нечасто, але бувають випадки, коли потрібно, щоб ресурс не брав участі в пошуковій видачі, А заходи проводилися за спеціальними посиланнями або через корпоративну авторизацію.

Так працюють внутрішні веб-сайти деяких компаній.

Крім того, така директива прописується, якщо сайт знаходиться на стадії розробки чи модернізації.

Якщо потрібно дозволити пошуковій системі сканувати взагалі все, що є на сайті, тоді потрібно написати в robots.txt такі команди:

User-agent: * Disallow:

У забороні (disallow) немає нічого, а отже, можна все.

Використання цього синтаксису у файлі robots.txt надає можливість сканерам обходити всі сторінки на http://www.nashsite.com, включаючи домашню сторінку, адмінку та контакти.

Блокування певних пошукових ботів та окремих папок

Синтаксис для пошукової системи Google (Googlebot).

Синтаксис інших пошукових агентів.

User-agent: Googlebot Disallow: / example-subfolder /

Цей синтаксис вказує лише пошуковій системі Google (Googlebot), що не потрібно сканувати адресу: www.nashsite.com/example-subfolder/.

Блокування окремих сторінок для зазначених ботів:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Цей синтаксис каже, що тільки Bingbot (ім'я пошукового агента Bing), не слід заходити на сторінку за адресою: www.nashsite.com/example-subfolder/blocked-page.

По суті, це все.

Якщо освоїте сім команд і три символи і розберетеся в логіці застосування, зможете написати правильний robots.txt.

Чому не працює і що робити

Алгоритм основного впливу.

Інші методи.

Неправильно працюючий robots.txt – це проблеми.

Адже на те, щоб виявити помилку, а потім розібратися в ній, потрібен час.

Перечитайте файл, переконайтеся, що Ви заблокували щось зайве.

Якщо через час виявиться, що сторінка все одно висить у видачі, перегляньте в Google Webmaster, чи переіндексував сайт пошуковик, ну і перевірте, чи немає зовнішніх посиланьна закриту сторінку.

Тому що, якщо вони є – приховати її з видачі буде складніше, потрібні інші методи.

Ну і перед використанням перевірте цей файл безкоштовним тестером від Google .

Своєчасний аналіз допомагає уникнути неприємностей та економить час.

Детальна інструкція про створення файлу robots.txt для сайту. Robots.txt є одним із найнеобхідніших аспектів повноцінної пошукової оптимізаціїсайту. Дотримуючись умов грамотного використання цього файлу, можна досягти певного позитивного ефекту на сайт. Можлива вказівка ​​різноманітних інструкцій для більшості PS. Які вказують пошуковому боту необхідні обмеження чи дозволи на сканування сторінок, каталогів чи розділів сайту.

Зміст статті:

Файл Robots.txt – основне визначення

Robots.txt має певні стандарти винятків для пошукових агентів (ботів), який був прийнятий у січні 1944 року. Правилам цього файлу добровільно дотримуються найпоширеніші PS. Файл може складатися з одного або кількох правил, кожне з яких блокує або дозволяє пошуковій роботі доступ до певних шляхів на сайті.

За замовчуванням цього файлу немає на сайті, що дає всім PS повний дозвіл на індексування всього вмісту сайту. Такий дозвіл може призвести до потрапляння в індекс пошукових систем важливих технічних сторінок сайту, яких там не повинно бути.

Для чого потрібний Robots.txt на сайті - його вплив на просування в пошукових системах

Robots.txt - це найважливіший фактор пошукової оптимізації сайту. Завдяки правильно прописаному набору правил для пошукових роботів можна досягти певного підвищення ранжування сайту в пошуку. Що дають такі інструкції:

  1. Замкнено на індексування певних сторінок, розділів, каталогів сайту.
  2. Виключення сторінок, що не містять корисного контенту.
  3. Виключення дублів сторінок та інше.

Для більшості сайтів такі обмеження на індексування просто необхідні для невеликих повносторінкових необов'язкові. Проте певні директиви необхідно додавати кожному сайту. Наприклад, заборони на індексацію:

  1. Сторінок реєстрації, входу до адмінки, відновлення пароля.
  2. Технічні каталоги.
  3. Rss – стрічки сайту.
  4. Replytocom та іншого.

Як створити правильний Robors.txt самостійно

Труднощі при створенні файлу Robots.txt не можуть виникнути навіть у початківців. Достатньо слідувати певній послідовності дій:

  1. Robots.txt - текстовий документта створюється будь-яким доступним текстовим редактором.
  2. Розширення файлу має бути обов'язковим.txt.
  3. Назва обов'язково robots.
  4. На одному сайті дозволено лише один такий файл.
  5. Розміщується лише у кореневому каталозі сайту.

Вам необхідно скористатися звичайним текстовим редактором (блокнотом як альтернативою). Створюємо документ формату .txt та назвою robots. Потім зберігаємо та переносимо цей документ за допомогою FTP клієнтау кореневий каталог сайту. Це основні дії, які необхідно виконати.

Створення Robots.txt за допомогою онлайн-сервісів

Цей метод найпростіший і найшвидший, підійде тим хто боїться самостійно створювати Robots.txt або просто лінується. Сервісів пропонують створення цього файлу безліч. Але варто враховувати деякі нюанси щодо цього способу. Наприклад:

  1. Необхідно заздалегідь врахувати, що Ви хочете заборонити, чи дозволити агенту.
  2. Необхідно обов'язково перевірити готовий файл перед завантаженням його на сайт.
  3. Будьте уважні, адже некоректно створений файл Robots.txt online призведе до плачевної ситуації. Таким чином у пошук можуть потрапити технічні та інші сторінки сайту, яких там бути в апріорі не повинно.

Все-таки, краще витратити час і зусилля для створення коректного роботу користувача. Таким чином можна відтворити чітко обґрунтовану структуру заборон та дозволів, що відповідає вашому сайту.

Редагування та правильний синтаксис файлу Robots.txt

Після успішно створеного Robots.txt, його можна спокійно редагувати та змінювати як Вам завгодно. При цьому слід врахувати деякі правила та грамотний синтаксис. Через деякий час ви неодноразово змінюватимете цей файл. Але не забувайте після проведення робіт з редагування, Вам необхідно буде вивантажити цей файл на сайт. Тим самим оновивши його для пошукових роботів.

Написати Robots.txt дуже просто, причина цього досить проста структура оформлення даного файлу. Головне при написанні правил використовувати суворо певний синтаксис. Цим правилам добровільно слідують, майже всі основні ПС. Ось список деяких правил, щоб уникнути більшості помилок у файлі Robots.txt:

  1. В одному рядку не повинно бути більше однієї зазначеної директиви.
  2. Кожне правило починається з нового рядка.
  3. Вимкнено пробіл на початку рядка.
  4. Допустимі коментарі після символу #.
  5. Порожній Роботс буде вважатися повним дозволом на індексацію.
  6. Назва цього файлу можлива лише у допустимому форматі «robots».
  7. Розмір файлу не повинен перевищувати 32кб.
  8. У директивах Allow та Disallow припустимо лише одне правило. Порожнє значення після Allow: або Disallow: рівносильні повній роздільній здатності.
  9. Усі правила мають бути прописані у нижньому регістрі.
  10. Файл має бути доступним завжди.
  11. Порожній рядок після вказаних правил вказує на повне закінчення правил директиви User-agent.
  12. Бажано прописувати правила кожної ПС окремо.
  13. Якщо правило це директорія сайту, то обов'язково ставте сліш перед її початком.
  14. Кавичок у рядку або у правилі бути не повинно.
  15. Необхідно враховувати строгу структуру правил, що відповідає Вашому сайту не більше.
  16. Robots.txt повинен бути мінімалістичним і чітко відображати переданий зміст.

Грамотне налаштування файлу Robots.txt - правильне написання команд

Щоб отримати позитивний результат при використанні роботів, необхідно правильно його налаштувати. Всім основним командам даного файлу з інструкціями слідують наймасштабніші пошукові системи Googleі Yandex. Інші PS можуть ігнорувати деякі інструкції. Як зробити robots.txt найбільш чуйним для більшості пошукачів? Тут необхідно розуміння основних правил роботи з цим файлом, про які йшлося вище.
Розглянемо основні команди:

User-Agent: *- Інструкції стосуватимуться всіх ps роботів. Також можливо вказати певні пошукові системи окремо наприклад: User-Agent: GoogleBot і User-Agent: YandexBot. Таким чином, коректно позначаються правила для важливих ПС.

Disallow:- повністю забороняє обхід та індексацію (сторінки, каталогу чи файлів).

Allow:- повністю дозволяє обхід та індексацію (сторінки, каталогу чи файлів).

Clean-param:- Потрібен для виключення сторінок сайту з динамічним контентом. Завдяки цьому правилу можна позбутися дублів контенту на сайті.

Crawl-delay:— правило вказує інтервал часу п-ботам для розвантаження документів із сайту. Дозволяє значно зменшити навантаження на сервер. Наприклад: «Crawl-delay: 5» - скаже спробу, що завантаження документів з сайту можливе не частіше одного разу в 5 секунд.

Host: ваш_сайт.ru- Відповідає за головне дзеркало сайту. У цій директиві потрібно прописати пріоритетну версію сайту.

Sitemap: http://ваш_сайт.ru/sitemap.xml— як Ви могли здогадатися, ця директива підказує п-боту про наявність Sitemap на сайті.

# - дозволяє залишати коментарі. Коментувати можна лише після знака решітки. Розміщувати її можна як у новому рядку, так і продовженням директиви. Всі ці варіанти ігноруватимуться ботами при проході інструкцій.

Приклади Robots.txs для всіх основних систем керування контентом (CMS)

Щоб скопіювати інструкції, необхідно натиснути кнопку з підказкою.

WordPress (WP)

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /category

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Host: site.ru
»


HostCMS

User-agent: *

Disallow: captcha.php

Disallow: download_file.php

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /xmlrpc/

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Joomla 3

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /xmlrpc/

MODx Evo

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Disallow: /index.php

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

NetCat

User-Agent: *

Disallow: /install/

Disallow: /links/

Disallow: /netcat/

Disallow: /netcat_files/

Disallow: /*.swf

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

MODx

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

OpenCart

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

Disallow: /index.php?route=product/manufacturer

Disallow: /index.php?route=product/compare

Disallow: /index.php?route=product/category

Host: vash_sait.ru (або www.vash_sait.ru)

UMI

User-Agent: *

Disallow: /emarket/addToCompare

Disallow: /emarket/basket

Disallow: /go_out.php

Disallow: /images

Disallow: /images/lizing

Disallow: /images/ntc

Disallow: /files

Disallow: /users

Disallow: /admin

Disallow: /search

Disallow: /install-temp

Disallow: /install-static

Disallow: /install-libs

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

Amiro.CMS

User-agent: *

Disallow: /admin

Disallow: /_admin/

Disallow: /members

Disallow: /search

Disallow: /subscribe

Disallow: /users

Disallow: /*offset=0

Disallow: /*forum_ext=

Disallow: /*_print_version=

Disallow: /*action=export_rss

Disallow: /*action=search

Disallow: /*action=view_posts

Disallow: /*display_form=

Host: site.ru
Sitemap: http://site.ru/sitemap.xm

Bitrix

User-agent: *

Disallow: /*index.php$

Disallow: /bitrix/

Disallow: /auth/

Disallow: /personal/

Disallow: /upload/

Disallow: /search/

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?print=

Disallow: /*&print=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*?action=

Disallow: /*action=ADD_TO_COMPARE_LIST

Disallow: /*action=DELETE_FROM_COMPARE_LIST

Disallow: /*action=ADD2BASKET

Disallow: /*action=BUY

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*print_course=Y

Disallow: /*COURSE_ID=

Disallow: /*?COURSE_ID=

Disallow: /*?PAGEN

Disallow: /*PAGEN_1=

Disallow: /*PAGEN_2=

Disallow: /*PAGEN_3=

Disallow: /*PAGEN_4=

Disallow: /*PAGEN_5=

Disallow: /*PAGEN_6=

Disallow: /*PAGEN_7=

Disallow: /*PAGE_NAME=search

Disallow: /*PAGE_NAME=user_post

Disallow: /*PAGE_NAME=detail_slide_show

Disallow: /*SHOWALL

Disallow: /*show_all=

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

Drupal

User-agent: *

Disallow: /database/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /updates/

Disallow: /profiles/

Disallow: /profile

Disallow: /profile/*

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: *register*

Disallow: *login*

Disallow: /top-rated-

Disallow: /messages/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/edit/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*?page=0

Disallow: /*section

Disallow: /*order

Disallow: /*?sort*

Disallow: /*&sort*

Disallow: /*votesupdown

Disallow: /*calendar

Disallow: /*index.php

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

Як перевірити Robots.txt за допомогою Google або Yandex

Як не дивно для перевірки цього файлу, необхідні лише панелі вебмайстра Google або Yandex. Що значно полегшує пошук помилок.

Вебмайстер Google- Вибираємо в лівому меню "Сканування" і потім вкладку "Інструмент перевірки файлу Robots.txt". Потім у нижньому рядку вікна, що з'явилося, допишіть назву файлу. Потім натисніть на «Перевірити» і подивіться як бот гугла бачить Ваш роботс.

Вебмайстер Yandex— у лівому меню вибираємо «Інструменти» та «Аналіз Robots.txt». Після цього у вікні просто натисніть на кнопку «Перевірити».

Варто зазначити, що онлайн валідаторів для перевірки цього файлу дуже багато. Я розповів про найдоступніші, які знаходяться завжди під рукою.

Висновок

Написати один ідеальний robots для всіх сайтів неможливо. Причина цього самі сайти, деякі з яких зроблені руками, інші розташовані на різних CMS. У всіх веб-сайтів різна структура каталогів та іншого. Тому кожен Вебмайстер просто повинен створити свій унікальний набір правил для п-ботів. Такий файл буде відповідати Вашим пріоритетам і не дозволить потрапити до пошуку конфіденційної інформації. Завдяки цьому в індексі буде перебувати якісний контентбез зайвого сміття.

  • Читайте статті на цю тему:

Роботами. search engine robots.

Recommendations on the content of the file

Yandex supports the following directives:

Directive What it does
User-agent *
Disallow
Sitemap
Clean-param
Allow
Crawl-delay
Directive What it does
User-agent * Indicates the robot до яких правила зберігаються в robots.txt apply.
Disallow Prohibits indexing site sections або окремі pages.
Sitemap Відомості про cestу до сторінки mapmap, що є зареєстрованим на сайті.
Clean-param Указує на роботу, що на сторінці URL містить параметри (відповідні UTM tags), які повинні бути ignored, коли indexing it.
Allow Можливі indexing site sections or individual pages.
Crawl-delay Відображають мінімальний термін (в секундах) для пошуку робітника для того, щоб почати після завантаження однієї сторінки, перед початком роботи з іншою.

* Mandatory directive.

Ви знайдете потребу в Disallow, Sitemap, і Clean-param directives.

User-agent: * # specify the robots що directives є set для Disallow: /bin/ # disables links from the Shopping Cart. Disallow: /search/ # disable page links of search embedded on the site Disallow: /admin/ # disables links from the admin panel Sitemap: http://example.com/sitemap # specify for the robot Clean-param: ref /some_dir/get_book.pl

Роботи з інших будівельних інструментів і послуг можуть interpretovat directives в різних способах. Indexing robot doesn"t support the use of files hosted on other sites.

Ви можете запрограмувати server"s response and the accessibility of robots.txt to the robot using the tool.

Якщо ваші robots.txt file redirects до іншого robots.txt file (для прикладу, коли moving a site), add the redirect target site в Yandex.Webmaster і здійснює право на management this site.

Файл robots.txt знаходиться у кореневому каталозі вашого сайту. Наприклад, на сайті www.example.com адреса файлу robots.txt буде виглядати як www.example.com/robots.txt. Файл robots.txt є звичайним текстовим файлом, який відповідає стандарту винятків для роботів, і включає одне або кілька правил, кожне з яких забороняє або дозволяє тому чи іншому пошуковому роботі доступ до певного шляху на сайті.

Ось приклад простого файлу robots.txt із двома правилами. Нижче наведено пояснення.

# Група 1 User-agent: Googlebot Disallow: /nogooglebot/ # Група 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml

Пояснення

  1. Агент користувача з назвою Googlebot не повинен сканувати каталог http://example.com/nogooglebot/ та його підкаталоги.
  2. Всі інші агенти користувача мають доступ до всього сайту (можна опустити, результат буде тим же, оскільки повний доступ надається за замовчуванням).
  3. Файл Sitemapцього сайту знаходиться за адресою http://www.example.com/sitemap.xml.

Нижче наведено кілька порад щодо роботи з файлами robots.txt. Ми рекомендуємо вам вивчити повний синтаксис цих файлів , оскільки синтаксичні правила, що використовуються при їх створенні, є неочевидними і ви повинні розбиратися в них.

Формат та розташування

Створити файл robots.txt можна майже у будь-якому текстовому редакторіза допомогою кодування UTF-8. Не використовуйте текстові процесори, оскільки вони часто зберігають файли в пропрієтарному форматі і додають у них неприпустимі символи, наприклад фігурні лапки, які не розпізнаються пошуковими роботами.

При створенні та тестуванні файлів robots.txt використовуйте інструмент перевірки. Він дозволяє проаналізувати синтаксис файлу та дізнатися, як він функціонуватиме на вашому сайті.

Правила щодо формату та розташування файлу

  • Файл повинен мати назву robots.txt.
  • На сайті має бути лише один такий файл.
  • Файл robots.txt потрібно розмістити у кореневому каталозісайту. Наприклад, щоб контролювати сканування всіх сторінок сайту http://www.example.com/, файл robots.txt слід розмістити за адресою http://www.example.com/robots.txt . Він не повинен перебувати в підкаталозі(наприклад, за адресою http://example.com/pages/robots.txt). У разі труднощів з доступом до кореневого каталогу зверніться до хостинг-провайдера. Якщо у вас немає доступу до кореневого каталогу сайту, використовуйте альтернативний методблокування, наприклад, метатеги .
  • Файл robots.txt можна додавати на адреси з субдоменами(наприклад, http:// website.example.com/robots.txt) або нестандартними портами (наприклад, http://example.com: 8181 /robots.txt).
  • Коментар вважається будь-який текст після символу #.

Синтаксис

  • Файл robots.txt повинен бути текстовим файлом у кодуванні UTF-8 (що включає коди символів ASCII). Інші набори символів не можна використовувати.
  • Файл robots.txt складається з груп.
  • Кожна групаможе містити декілька правил, по одному на рядок. Ці правила також називаються директивами.
  • Група містить таку інформацію:
    • До якого агенту користувачазастосовуються директиви групи.
    • є доступ.
    • До яких каталогів або файлів цього агента немає доступу.
  • Інструкції груп зчитуються зверху донизу. Робот дотримуватиметься правил лише однієї групи з найбільш точно відповідним йому агентом користувача.
  • За замовчуванням передбачається, якщо доступ до сторінки або каталогу не заблокований правилом Disallow: , то агент користувача може їх обробляти.
  • Правила чутливі до регістру. Так, правило Disallow: /file.asp застосовується до URL http://www.example.com/file.asp , але не http://www.example.com/File.asp .

Директиви, які використовуються у файлах robots.txt

  • User-agent: Обов'язкова директива, у групі таких може бути декілька. Визначає, до якого пошукового роботуповинні застосовуватись правила. З такого рядка починається кожна група. Більшість агентів користувача, що належать до робот Google, можна знайти в спеціальному списку та в базі даних роботів Інтернету. Підтримується знак підстановки * для позначення префікса, суфікса шляху або всього шляху. Використовуйте знак * , як показано нижче, щоб заблокувати доступ всім пошуковим роботам ( крім роботів AdsBot, які потрібно вказувати окремо). Рекомендуємо ознайомитися зі списком роботів Google. Приклади:# Приклад 1. Блокування доступу лише роботу Googlebot User-agent: Googlebot Disallow: / # Приклад 2. Блокування доступу роботам Googlebot та AdsBot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Приклад 3. Блокування доступу всім роботам , за винятком AdsBot User-agent: * Disallow: /
  • Disallow: . Вказує на каталог або сторінку щодо кореневого домену, який не можна сканувати агенту користувача, визначеному вище. Якщо це сторінка, має бути вказано повний шляхдо неї, як у адресному рядку браузера. Якщо це каталог, шлях до нього має закінчуватися косою межею (/). Підтримується знак підстановки * для позначення префікса, суфікса шляху або всього шляху.
  • Allow: Принаймні одна директива Disallow: або Allow: має бути в кожній групі. Вказує на каталог або сторінку щодо кореневого домену, який можна сканувати агенту користувача, визначеному вище. Використовується, щоб скасувати директиву Disallow та дозволити сканування підкаталогу або сторінки в закритому для сканування каталозі. Якщо це сторінка, необхідно вказати повний шлях до неї, як в адресному рядку браузера. Якщо це каталог, шлях до нього має закінчуватися косою межею (/). Підтримується знак підстановки * для позначення префікса, суфікса шляху або всього шляху.
  • Sitemap: Необов'язкова директива, таких у файлі може бути кілька або зовсім.Вказує на розташування файлу Sitemap, який використовується на цьому сайті. URL має бути повним. Google не обробляє та не перевіряє варіанти URL з префіксами http та https або з елементом www та без нього. Файли Sitemap повідомляють Google, який контент потрібносканувати і як відрізнити його від контенту, який можна, можливоабо не можнасканувати. Приклад: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Інші правила ігноруються.

Ще один приклад

Файл robots.txt складається із груп. Кожна з них починається з рядка User-agent , що визначає робота, який повинен дотримуватися правил. Нижче наведено приклад файлу з двома групами та з пояснювальними коментарями до обох.

# Блокувати доступ Googlebot до каталогів example.com/directory1/... і example.com/directory2/... # але дозволити доступ до каталогу directory2/subdirectory1/... # Доступ до всіх інших каталогів дозволено за замовчуванням. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Блокувати доступ до всього сайту іншою пошуковою системою. User-agent: anothercrawler Disallow: /

Повний синтаксис файлу robots.txt

Повний синтаксис описаний у цій статті. Рекомендуємо вам ознайомитися з нею, тому що у синтаксисі файлу robots.txt є деякі важливі нюанси.

Корисні правила

Ось кілька поширених правил для файлу robots.txt:

Правило приклад
Заборона сканування всього сайту.Слід врахувати, що в деяких випадках URL-адреси сайту можуть бути присутніми в індексі, навіть якщо вони не були проскановані. Зверніть увагу, що це правило не відноситься до робіт AdsBot, яких потрібно вказувати окремо. User-agent: * Disallow: /
Щоб заборонити сканування каталогу та всього його змісту, поставте після назви каталогу косу межу. Не використовуйте файл robots.txt для захисту конфіденційної інформації! Для цього слід застосовувати аутентифікацію. URL, сканування яких заборонено файлом robots.txt, можуть бути проіндексовані, а зміст файлу robots.txt може переглянути будь-який користувач, і таким чином дізнатися про місцезнаходження файлів з конфіденційною інформацією. User-agent: * Disallow: /calendar/ Disallow: /junk/
Щоб дозволити сканування лише для одного пошукового робота User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Щоб дозволити сканування для всіх пошукових роботів, за винятком одного User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /

Щоб заборонити сканування окремої сторінки, вкажіть цю сторінку після косої межі.

User-agent: * Disallow: /private_file.html

Щоб приховати зображення від робота Google Картинок

User-agent: Googlebot-Image Disallow: /images/dogs.jpg

Щоб приховати всі зображення з вашого сайту від робота Google Картинок

User-agent: Googlebot-Image Disallow: /

Щоб заборонити сканування всіх файлів певного типу(у даному випадку GIF)

User-agent: Googlebot Disallow: /*.gif$

Щоб заблокувати певні сторінки сайту, але продовжувати на них показ оголошень AdSense, використовуйте правило Disallow для всіх роботів, за винятком Mediapartners-Google. В результаті цей робот зможе отримати доступ до віддалених результатів пошуку сторінок, щоб підібрати оголошення для показу тому чи іншому користувачеві.

User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Щоб вказати URL, який закінчується на певному фрагменті, використовуйте символ $. Наприклад, для URL, що закінчуються на .xls, використовуйте наступний код: User-agent: Googlebot Disallow: /*.xls$

Ця інформація виявилася корисною?

Як можна покращити цю статтю?