В сети существует достаточно много разработанных серверных скриптов и десктопных приложений для извлечения информации (парсинга) каталога яндекса (ЯК). В данной статье не является целью привести примеры онлайн сервисов для парсинга ЯК, их можно найти в поисковой системе по ключу парсер яндекс каталога. Пролистав страницу, ниже вы найдете ссылку для скачивания серверной версии граббера, которую можно установить на денвере.
Что такое Яндекс.Каталог?
Яндекс Каталог, или просто ЯК, это сборник самых хороших, качественных (по мнению редакторов самого каталога) ресурсов русского интернета, сгруппированных по тематическим категориям. В каталоге ЯК ресурсы отсортированы в порядке убывания их тематического индекса цитирования (тИЦ), который среди SEOшников считается одним из показателей качественного сайта. Более подробно о яндекс-каталоге вы можете почитать здесь.
Что такое парсер?
Парсер — это синтаксический анализатор. В нашем случае парсер, или граббер, это анализатор кода. Обычно это программа, или часть программы, которая извлекает из заданной структуры необходимые данные. Парсер яндекс каталога это программа, которая извлекает из страниц ЯКа урлы сайтов в заданной тематике (категории).
Зачем нужен парсер каталога яндекса?
Есть несколько целей использования информации о сайтах, полученных в результате парсинга каталога. Ниже приводится две наиболее распространенных из них.
Наверняка, комментарии излишни. Если вам нужен парсер каталога ЯК, вы попали именно туда, куда следует.
Скачать парсер ЯК с инструкциями
Для скачивания парсера кликните ссылку ниже:
YacaParser.zip [11.39KB]
ТРЕБОВАНИЯ
УСТАНОВКА
Перепишите папку YacaParser на свой сервер в любое место, доступное из web. Папка files должна быть доступна для записи. Если вы записали на сайт site.ru, тогда запустите парсер, введя в строку браузера путь http://site.ru/YacaParser/
ИСПОЛЬЗОВАНИЕ
При использовании скрипта необходимо задать категорию, которую требуется спарсить. Поддерживается два формата категории:
1. Категория/Подкатегория
Например, для парсинга категории “Недвижимость”, необходимо ввести путь
Business/Realty
2. Полный путь
Например,
http://yaca.yandex.ru/yca/cat/Business/Realty/
При переходе по страницам Яндекс Каталога используется задержка в 1 секунду (строка 48 файла class.Grabber.php). Этот параметр можно менять, задавая целое число секунд. Регулярные выражения для работы со структурой кода страниц каталога можно изменять в файле config.php.
ВНИМАНИЕ
При большом количестве запросов к яндекс каталогу ваш IP адрес может быть забанен на сутки. Обычно, не более 1000 запросов (страниц) в час это нормально.
Источник: