Золотой Король

Помощь - Поиск - Пользователи - Календарь

Полная версия: ROBOTS.TXT

Золотой Король > Веб мастеру > Поисковая оптимизация > Яндекс

costen

14.3.2009, 18:17

Всем привет.
Расскажите мне пожалуйста что такое robots.txt и как его сделать.
Хочу добавить сайт в Яндекс, но мне пишет чтото про robots.txt

Помогите плз.
Жду Ваших ответов.

vamp$

23.3.2009, 5:01

Любой сайт в интернете, в том числе может оказаться доступным для роботов поисковых машин. Если по каким-либо причинам вы не хотите, чтобы ваш сайт или отдельные его разделы можно было найти в поисковых системах, создайте в корне сайта файл robots.txt с подходящим содержимым. Как это сделать, можно узнать из помощи.

Что такое Яндекс.Вебмастер

Яндекс.Вебмастер — это сервис, предоставляющий информацию о том, как индексируются ваши сайты. Он позволяет сообщить Яндексу о новых и удаленных страницах, пожаловаться на страницы с поисковым спамом.

С помощью Яндекс.Вебмастера вам будет доступна следующая информация:

дата последнего обращения поискового робота к сайту;
количество проиндексированных страниц и структура разделов сайта;
количество ошибок и распределение их по разделам;
список страниц, которые не удалось проиндексировать, с указанием причины ошибки.
Нажмите для просмотра прикрепленного файла

Brother

24.3.2009, 6:57

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл robots.txt может использоваться для указания расположения файла Sitemaps.

[Описание структуры

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

Проверка синтаксиса

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.

* Служба Яндекса (выполняет только проверку синтаксиса) (русск.)
* Google webmasters tools (позволяет проверить разрешения для каждой отдельной страницы) (русск.)

Сушествует специализированная поисковая система BotSeer, которая позволяет осуществлять поиск по файлам robots.txt.

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: *
Disallow: /

Запрет доступа определенного робота к каталогу /private/:

User-agent: googlebot
Disallow: /private/

Нестандартные директивы

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: *
Crawl-delay: 10

Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/

Расширенный стандарт

Был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: *
Disallow: /downloads/
Request-rate: 1/5 # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Brother

19.7.2010, 1:38

А, ну да.. забыл источник указать

Это с Википедии конечно.

Цитата

Хочу добавить сайт в Яндекс, но мне пишет чтото про robots.txt

Удалите в корневом каталоге сайта файл robots.txt вообще - и проблема решится

Это текстовая версия — только основной контент. Для просмотра полной версии этой страницы, пожалуйста, нажмите сюда.