Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Золотой Король _ Яндекс _ ROBOTS.TXT

Автор: costen 14.3.2009, 18:17

Всем привет.
Расскажите мне пожалуйста что такое robots.txt и как его сделать.
Хочу добавить сайт в Яндекс, но мне пишет чтото про robots.txt

Помогите плз.
Жду Ваших ответов.

Автор: vamp$ 23.3.2009, 5:01

Любой сайт в интернете, в том числе может оказаться доступным для роботов поисковых машин. Если по каким-либо причинам вы не хотите, чтобы ваш сайт или отдельные его разделы можно было найти в поисковых системах, создайте в корне сайта файл robots.txt с подходящим содержимым. Как это сделать, http://53754.linktraff.ru/http://help.yandex.ru/webmaster/

Что такое Яндекс.Вебмастер

Яндекс.Вебмастер — это сервис, предоставляющий информацию о том, как индексируются ваши сайты. Он позволяет сообщить Яндексу о новых и удаленных страницах, пожаловаться на страницы с поисковым спамом.

С помощью Яндекс.Вебмастера вам будет доступна следующая информация:

дата последнего обращения поискового робота к сайту;
количество проиндексированных страниц и структура разделов сайта;
количество ошибок и распределение их по разделам;
список страниц, которые не удалось проиндексировать, с указанием причины ошибки.
robots.txt ( 25 байт ) Кол-во скачиваний: 550

Автор: Brother 24.3.2009, 6:57

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл robots.txt может использоваться для указания расположения файла Sitemaps.

[Описание структуры

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

Проверка синтаксиса

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.

* Служба Яндекса (выполняет только проверку синтаксиса) (русск.)
* Google webmasters tools (позволяет проверить разрешения для каждой отдельной страницы) (русск.)

Сушествует специализированная поисковая система BotSeer, которая позволяет осуществлять поиск по файлам robots.txt.

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: *
Disallow: /

Запрет доступа определенного робота к каталогу /private/:

User-agent: googlebot
Disallow: /private/

Нестандартные директивы

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: *
Crawl-delay: 10

Allow: имеет действие, обратное директиве Disallow — разрещает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html
Disallow: /album1/

Расширенный стандарт

Был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: *
Disallow: /downloads/
Request-rate: 1/5 # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Автор: Brother 19.7.2010, 1:38

А, ну да.. забыл источник указать
Это с Википедии конечно.

Цитата

Хочу добавить сайт в Яндекс, но мне пишет чтото про robots.txt

Удалите в корневом каталоге сайта файл robots.txt вообще - и проблема решится

Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)