Screaming frog seo spider русский язык

Содержание
  1. Подробная инструкция по использованию Screaming Frog SEO Spider
  2. Configuration Options (опции для парсинга)
  3. Spider Configuration
  4. Basic
  5. Limits
  6. Rendering
  7. Advanced
  8. Robots.txt (настройки влияния robots.txt)
  9. Settings
  10. Ignore robots.txt
  11. Respect robots.txt
  12. Custom
  13. URL Rewriting
  14. Remove Parameters
  15. Regex Replace
  16. Options
  17. Test
  18. CDNs
  19. Include/Exclude (включение и исключение папок при парсинге)
  20. Speed (скорость парсинга)
  21. User-Agent (с помощью какого “бота” парсим)
  22. HTTP Header (учет определенных http-заголовков)
  23. Custom (настройки для парсинга дополнительных данных)
  24. Custom Search
  25. Custom Extraction
  26. User Interface (сброс сортировки столбцов)
  27. API Access (интеграция с сервисами)
  28. System (настройки парсера)
  29. Memory
  30. Storage
  31. Proxy
  32. Embedded Browser
  33. Mode (режимы сканирования)
  34. Подробная настройка программы Screaming Frog SEO Spider
  35. Настройка Screaming Frog: Configuration
  36. 1. Базовые настройки (Basic)
  37. 2. Лимиты проверок (Limits)
  38. 3. Настройки рендеринга (Rendering)
  39. 4. Расширенные настройки (Advanced)
  40. 5. Персональные настройки (Preferences)
  41. Настройка обработки файла robots.txt
  42. Опции Include/Exclude
  43. User-agent
  44. Custom > Search
  45. Технический аудит сайта при помощи Screaming Frog SEO Spider
  46. Базовые принципы сканирования сайта
  47. Как сканировать весь сайт.
  48. Как сканировать один каталог.
  49. Как сканировать набор определеных поддоменов или подкатологов.
  50. Если требуется просканировать список всех страниц моего сайта.
  51. Если требуется просканировать список всех страниц в определенном подкаталоге.
  52. Если требуется просканировать список доменов, которые ваш клиент только что перенаправил на свой коммерческий сайт.
  53. Как найти все поддомены сайта и проверить внутренние ссылки.
  54. Как сканировать коммерческий или любой другой большой сайт.
  55. Как сканировать сайт, размещенный на старом сервере.
  56. Как сканировать сайт, который требует cookies.
  57. Как сканировать сайт, используя прокси или другой пользовательский агент.
  58. Как сканировать сайты, требующие авторизации.
  59. Внутренние ссылки
  60. Что делать, когда требуется получить информацию о внешних и внутренних ссылках сайта (анкорах, директивах, перелинковке и пр.).
  61. Как найти неработающие внутренние ссылки на страницу или сайт.
  62. Как выявить неработающие исходящие ссылки на странице или сайте (или все битые ссылки одновременно).
  63. Как найти перенаправляющие ссылки.
  64. Контент сайта
  65. Как идентифицировать страницы с неинформативным содержанием (т.н. «thin content» − «токний контент»). ­
  66. Если требуется выделить с конкретных страниц список ссылок на изображения.
  67. Как найти изображения, у которых отсутствует замещающий текст или изображения, имеющие длинный Alt-текст.
  68. Как найти на сайте каждый CSS-файл.
  69. Как найти файлы JavaScript.
  70. Как выявить все плагины jQuery, использованные на сайте, и их местоположение.
  71. Как определить, где на сайте размещается flash.
  72. Как найти на сайте внутренние PDF-документы.
  73. Как выявить сегментацию контента в пределах сайта или группы страниц.
  74. Как найти страницы, имеющие кнопки социального обмена.

Подробная инструкция по использованию Screaming Frog SEO Spider

Правильный аудит сайта – это половина успешной оптимизации. Но для его проведения требуется ряд инструментов и их понимание.

Одним из наиболее полезных сервисов является Screaming Frog (SF), который дает возможность с помощью парсинга (сбора информации) получить необходимые данные, например, массово выгрузить пустые страницы или найти все дубликаты по метатегу Title.

В процессе оптимизации мы часто используем данный сервис, поэтому решили составить цикл обзорных статей, чтобы упростить специалистам навигацию по инструментарию и поиску решений нетривиальных задач. В этой статье-переводе расскажем о настройке парсинга и опишем, как без лишних проблем сканировать большие сайты.

Configuration Options (опции для парсинга)

Spider Configuration

Здесь задаются основные настройки парсера, которые разбиты по следующим вкладкам:

Basic

Если здесь и далее чекбокс отмечен, выполняется указанный вид операции с созданием (при возможности) соответствующего отчета:

Если включена данная опция, можно выбрать «Auto Discover XML Sitemaps via robots.txt» (SF сам найдет sitemap.xml с помощью robots.txt) или предоставить список файлов, отметив «Crawl These Sitemap» и вставив их в поле, которое появится.

Limits

Rendering

На выбор три опции:

Детальные настройки есть только в опции JavaScript.

Advanced

При выборе последних трех пунктов в каждом случае доступны дополнительные чекбоксы с типами валидации микроразметки (Schema.org, Google Validation, Case-Sensitive).

Здесь задаем желаемые параметры для ряда сканируемых элементов (Title, Description, URL, H1, H2, ALT и размер картинок).

Robots.txt (настройки влияния robots.txt)

Здесь мы указываем парсеру, как именно учитывать файл robots.txt. Блок разделен на две вкладки – Settings и Custom.

Settings

Ignore robots.txt

По умолчанию SF будет подчиняться протоколу robots.txt: например, если сайт запрещен для сканирования в robots.txt, краулер не сможет его спарсить. Однако данная опция позволяет игнорировать этот протокол, таким образом разрешая попадание в отчет всех папок и файлов.

Respect robots.txt

При выборе опции мы можем получить отчет по внутренним и внешним ссылкам, закрытым от индексации в robots.txt. Для этого необходимо выбрать соответствующие чекбоксы: для отчета по внешним ссылкам – Show external URLs blocked by robots.txt, по внутренним – Show internal URLs blocked by robots.txt.

Custom

Пользовательский файл robots.txt использует выбранный User Agent в конфигурации, таким образом данная опция позволит просканировать или протестировать robots.txt без необходимости внесения правок для актуальных директив или использования панелей вебмастеров.

Сначала укажите в основной строке название, нажмите кнопку Add, в итоге вы получите robots.txt домена:

В правом нижнем углу есть кнопка Test. Если слева вписать нужный URL домена и нажать на нее, программа покажет доступность URL для индекса с учетом указанных в robots.txt настроек.

URL Rewriting

Данный блок дает возможность перезаписать сканируемые URL в процессе парсинга. Функция удобна, если во время сканирования надо изменить регулярные выражения, которые не нужны в конечном отчете.

Remove Parameters

Здесь вводят параметры, которые можно удалить из URL при анализе сайта либо исключить все возможные параметры (чекбокс Remove all):

Regex Replace

Изменяет все сканируемые URL с использованием регулярных выражений. Например, можно изменить все ссылки с HTTP на HTTPS:

Options

Здесь определяем перезапись прописных URL в строчные.

Test

Тут можно тестировать видоизменения URL перед началом парсинга, пример с учетом версии для Regex Replace:

CDNs

Данная функция позволяет включать в парсинг дополнительные домены и папки, считая их внутренними ссылками. При этом можно указать для сканирования только конкретные папки:

Во вкладке Test можно посмотреть, как будут определяться URL с учетом параметров Internal и External, где Internal означает, что ссылка считается внутренней, а External – внешней.

Include/Exclude (включение и исключение папок при парсинге)

Во вкладке Include мы вписываем выражения для парсинга только указанных папок, во вкладке Exclude – исключения, для парсинга всех, кроме указанных.

Разберем логику на примере вкладки Exclude:

Чтобы проверить выражение, можно использовать вкладку Test. Например, нужно запретить парсинг домена.

Если правило указано верно, то в Test при вводе нужного URL будет следующее:

Примеры других выражений:

Важно: “?” является специальным символом в регулярном выражении и должен быть экранирован обратной косой чертой.

Speed (скорость парсинга)

Можно выставить как количество потоков (по умолчанию 5), так и число одновременно сканируемых адресов. Влияет как на скорость парсинга, так и на вероятность бана бота, поэтому лучше быть осторожными.

User-Agent (с помощью какого “бота” парсим)

Опция Preset User-Agents позволяет выбрать, от лица какого бота будет происходить парсинг. Полезно, если в настройках сайта есть директивы, блокирующие конкретного бота. Дополнительно удобно при поиске ошибок, если парсинг производить от “лица” Googlebot Smartphone.

HTTP Header (учет определенных http-заголовков)

Данная опция позволяет указать конкретный вид контента для сканирования. Настроек много – от Accept-Language, Cookie, Referer или просто указания уникального имени заголовка.

Custom (настройки для парсинга дополнительных данных)

Данная вкладка является одной из наиболее ценных, если есть необходимость в поиске конкретной информации по всему сайту.

Функция дает возможность получить отчет с учетом любого регулярного выражения, которое будет указано в соответствующем фильтре. Например, можно получить отчет по страницам, содержащим кодировку utf-8 в HTML-коде:

Читайте также:  Грамматические категории прилагательных в русском языке таблица

Используем соответствующий фильтр:

Custom Extraction

С помощью данной функции можно получить информацию при помощи CSS, XPath или Regex, например:

За счет функции Extract text можно получить данные о количестве статей в разных странах в отчете Custom:

User Interface (сброс сортировки столбцов)

Функция для сброса пользовательской сортировки столбцов. Это все 🙂

API Access (интеграция с сервисами)

Чтобы получить больше данных по сайту, можно настроить интеграцию с разными сервисами статистики, например, с Google Analytics или Ahrefs, при условии, что у вас есть необходимые данные для интеграции.

System (настройки парсера)

Memory

Здесь указываем предел оперативной памяти для парсинга.

Можно указать больше заданного, но делать это нужно осторожно.

Storage

Здесь указывается, куда будут сохраняться отчеты – в папку программы либо по указанному пути.

Proxy

Указываете прокси, с помощью которых будет происходить парсинг (используется, если выбран чекбокс).

Embedded Browser

Если чекбокс активен, парсер использует встроенный в программу браузер для сканирования.

Mode (режимы сканирования)

Выбираем режимы сканирования сайта.

Spider – классический парсинг сайта по внутренним ссылкам, вводим домен в адресную строку.

List – парсим только предварительно собранный список URL-адресов. Указать их можно несколькими способами:

SERP Mode – режим не для сканирования: в нем можно загружать метаданные сайта, редактировать и тестировать для понимания дальнейшего отображения в браузере.

После парсинга информацию можно посмотреть в соответствующих отчетах вверху:

С помощью данных настроек можно решить ряд как простых, так и сложных задач в рамках аудита сайта. В других статьях мы будем их рассматривать.

Источник

Подробная настройка программы Screaming Frog SEO Spider

Подробная настройка программы Screaming Frog SEO Spider

Сегодня разберем настройки программы Screaming Frog SEO Spider.

Особенности программы:

Настройка Screaming Frog: Configuration

1. Базовые настройки (Basic)

Для перехода к базовым настройкам заходим Configuration > Spider > Basic:

Во вкладке отмечаем файлы, которые будем сканировать: картинки, CSS, JS файлы, внешние ссылки и т.п.

Например, при недостаточном объеме памяти необходимо отключить сканирование изображений.

Check Images — параметр, отвечающий за сканирование изображений

Check CSS — параметр, отвечающий за сканирование CSS.

Check JavaScript — параметр, отвечающий за сканирование JavaScript.

Check SWF — параметр, отвечающий за сканирование флеш-ссылки.

Check external links — параметр, отвечающий за сканирование внешних ссылок и/или ресурсов. Это могут быть изображения, CSS, JS, атрибуты hreflang и пр.

Check links outside of start folder — параметр предоставляет возможность обхода в начальной папке запуска, но все равно сканирует ссылки.

Follow internal or external «nofollow» — для сканирования ссылок в теге nofollow отметьте этот параметр.

Crawl all subdomains — для сканирования поддоменов поставьте флажок.

Crawl outside of start folder — по умолчанию SEO Spider будет сканировать только подпапку. Данная функция нужна для сканирования всего сайта при условии, что сканирование начинается с поддомена.

Crawl canonicals — параметр отвечает за сканирование canonical.

Crawl next / prev — параметр отвечает за сканирование rel = «next» и rel = «prev» параметров. Для сканирования таких страниц необходимо отметить параметр флажком.

2. Лимиты проверок (Limits)

Для перехода к настройкам лимитов сканирования заходим Configuration > Spider > Limits:

Вкладка Limits отвечает за настройки лимитов на санирование URL.

Для сканирования сайта полностью рекомендую убирать данную настройку, если задать определенный лимит, то как краулер остановится достигнув заданного числа.

Указав уровень вложенности 1, Screaming Frog выдаст все URL УВ. от введенного документа.

Параметр отвечает, как глубоко может сканировать сайт по адресу URL site.ru/papka-1/papka-2/papka-3/, где число это параметр Limit Max Folder Depth.

3. Настройки рендеринга (Rendering)

Во вкладке Rendering настраиваем параметры сканирования JavaScript кода.

Для сканирования JS файлов выберите в настройках JavaScript.

Внимание: это увеличит время сканирования и требуемый объем оперативной памяти.

4. Расширенные настройки (Advanced)

Разберем расширенные настройки Паука.

Allow cookies

По умолчанию SEO Spider не использует файлы cookie. Для задач, где использование файлов cookies необходимо, отмечаем данное поле. Данная функция используется не часто, и у себя её не отмечаю.

Pause on high memory usage

Screaming Frog автоматически приостанавливается, когда паук достиг максимума разрешенной памяти и отображает сообщение «о заполнении памяти».

Always follow redirects

Эта функция указывает SEO-пауку переходить по редиректам до того момента, пока не попадет на страницу с кодом ответа 200 ОК.

Respect noindex

Этот параметр удаляет все URL-адреса с «noindex».

Respect canonical

Этот параметр удаляет все канонические страницы из отчета.

Respect Next/Prev

Этот параметр фиксирует URL-адреса с параметром rel = «prev», о которых не сообщается в SEO Spider.

Extract Images From img srcset Attribute

Response timeout

По умолчанию SEO Spider будет ждать 20 секунд, чтобы получить код ответа от URL-адреса. Вы можете увеличить продолжительность ожидания ответа от сайта. Увеличение времени пригодиться для очень медленных веб-сайтов.

5XX Response Retries

Этот параметр позволяет повторно проверять страницы, отдавшие 5XX код. Часто код 5ХХ может быть вызван перегрузкой сервера и повторное сканирование URL-адреса может дать ответ 2XX.

Max redirects to follow

Фиксируем максимальное число переадресаций, по которым будет переходить SEO Spider при 30Х коде ответа.

5. Персональные настройки (Preferences)

В данном блоке настроек задается диапазон размеров тегов, меты и заголовков h1, h2, которые будут считаться допустимыми.

Дополнительно на этой вкладке указывается максимально допустимый размер URL в символах, максимальный размер ALT у изображений и вес изображения.

На изображении представлены рекомендуемые настройки для тегов Title, Description, H1

Разобрав настройки паука (Configuration > Spider) переходим к следующим параметрам.

Настройка обработки файла robots.txt

Для определения параметров обработки robots заходим во вкладку Configuration > robots.txt > Settings

В данном окне всего 3 параметра:

1. Игнорирование файла robots.txt

Паук не будет сканировать сайт, если индексация запрещена в robots.txt. Эта опция позволяет игнорировать этот протокол.

2. Отображение внутренних URL, заблокированных в файле robots.txt

Внутренние URL заблокированные в robots.txt будут отображаться во вкладке » Internal » с кодом ответа «0»и статусом «Blocked by Robots.txt» заблокирован в файле robots.txt. Чтобы скрыть эти URL в интерфейсе, снимаем флажок.

3. Отображение внешних URL, заблокированных в файле robots.txt

Аналогично пункту 2, но только для внешних ссылок.

Опции Include/Exclude

Во вкладках Configuration > Include и Configuration > Exclude

Опции позволяют с помощью регулярных выражений указывать, какие URL сканировать либо исключать из анализа.

Чаще всего данные вкладки использую, когда проверить весь сайт полностью не получается из-за его размера. В этом случае проверку выполняем по разделам.

Конфигурация Speed контролирует скорость сканирования SEO Spider.

Для настройки скорости сканирования переходим во вкладку Configuration > Speed.

Внимание, чем больше данный параметр, тем выше вероятность, того что сервер паук будет перегружать сервер и скорость ответа уменьшится.

User-agent

Вы можете настроить «User-Agent» в разделе « Configuration > User-Agent».

Screaming Frog имеет встроенные параметры агентов для Googlebot, Yandex, Googlebot-Mobile, и др. Дополнительно можете настраивать собственного пользовательского агента.

Данной настройкой пользуюсь при сравнении десктопной и мобильной версии сайта.

Custom > Search

Пользовательские настройки поиска, при помощи регулярных выражений, находят требуемые участки кода.

Страницы, найденные по заданным параметрам, отображаются в соответствующей вкладке.

Внимание:

Источник

Технический аудит сайта при помощи Screaming Frog SEO Spider

Для большинства людей общий аудит сайта – задача достаточно сложная и трудоемкая, однако с такими инструментами, как Screaming Frog SEO Spider (СЕО Паук) задача может стать значительно более простой как для профессионалов, так и для новичков. Удобный интерфейс Screaming Frog обеспечивает легкую и быструю работу, однако многообразие вариантов конфигурации и функциональности может затруднить знакомство с программой, первые шаги в общении с ней.

Читайте также:  Nachdem в немецком языке согласование времен

Нижеследующая инструкция призвана продемонстрировать различные способы использования Screaming Frog в первую очередь для аудита сайтов, но также и других задач.

Базовые принципы сканирования сайта

Как сканировать весь сайт.

По умолчанию Screaming Frog сканирует только поддомен, на который вы заходите. Любой дополнительный поддомен, с которым сталкивается Spider, рассматривается как внешняя ссылка. Для того чтобы сканировать дополнительные поддомены, необходимо внести корректировки в меню конфигурации Spider. Выбрав опцию «Crawl All Subdomains», вы можете быть уверены в том, что Паук проанализирует любые ссылки, которые встречаются на поддоменах вашего сайта.

Чтобы ускорить сканирование не используйте картинки, CSS, JavaScript, SWF или внешние ссылки.

Как сканировать один каталог.

Если вы хотите ограничить сканирование конкретной папкой, то просто введите URL и нажмите на кнопку «старт», не меняя параметры, установленные по умолчанию. Если вы внесли изменения в предустановленные настройки, то можно сбросить их при помощи меню «File».

Если вы хотите начать сканирование с конкретной папки, а после перейти к анализу оставшейся части поддомена, то перед тем, как начать работу с нужным вам URL, перейдите сначала в раздел Spider под названием «Configuration» и выберите в нем опцию «Crawl Outside Of Start Folder».

Как сканировать набор определеных поддоменов или подкатологов.

Чтобы взять в работу конкретный список поддоменов или подкатологов вы можете использовать RegEx, чтобы задать правила включения (Include settings) или исключения (Exclude settings) определенных элементов в меню «Configuration».

На показанном ниже примере были выбраны для сканирования все страницы сайта havaianas.com, кроме страниц «About» в каждом отдельном поддомене (исключение). Следующий пример показывает как можно просканировать именно англоязычные страницы поддоменов этого же сайта (включение).

Если требуется просканировать список всех страниц моего сайта.

По умолчанию, Screaming Frog сканирует все изображения JavaScript, CSS и флеш-файлы, с которыми сталкивается Паук. Чтобы анализировать исключительно HTML, вам нужно снять галочку с опций «Check Images», «Check CSS», «Check JavaScript» и «Check SWF» в меню «Configuration» Spider. Запуск Паука будет совершаться без учета указанных позиций, что позволит вам получить список всех страниц сайта, на которые имеются внутренние ссылки. После завершения сканирования перейдите во вкладку «Internal» и отфильтруйте результаты по стандарту HTML. Кликните по кнопке «Export», чтобы получить полный список в формате CSV.

Совет: Если вы намерены использовать заданные настройки для последующих сканирований, то Screaming Frog предоставит вам возможность сохранить заданные опции.

Если требуется просканировать список всех страниц в определенном подкаталоге.

В дополнение к «Check Images», «Check CSS», «Check JavaScript» и «Check SWF» в меню «Configuration» Spider вам нужно будет выбрать «Check Links Outside Folder». То есть вы исключите данные опции из Паука, что предоставит вам список всех страниц выбранной папки.

Если требуется просканировать список доменов, которые ваш клиент только что перенаправил на свой коммерческий сайт.

В ReverseInter.net добавьте URL этого сайта, после нажмите ссылку в верхней таблице, чтобы найти сайты, использующие те же IP-адрес, DNS-сервер, или код GA.

Далее используя расширение для Google Chrome под названием Scraper, вы сможете найти список всех ссылок с анкором «посетить сайт». Если Scraper уже установлен, то вы можете запустить его, кликнув кнопкой мыши в любом месте страницы и выбрав пункт «Scrape similar». Во всплывающем окне вам нужно будет изменить XPath-запрос на следующее:
//a[text()=’visit site’]/@href.

Далее этот список вы сможете загрузить в Spider и запустить сканирование. Когда Spider закончит работу, вы увидите соответствующий статус во вкладке «Internal». Либо же вы можете зайти в «Response Codes» и при помощи позиции «Redirection» отфильтровать результаты, чтобы увидеть все домены, которые были перенаправлены на коммерческий сайт или куда-либо еще.

Совет: Данный метод вы также можете использовать для того, чтобы идентифицировать домены ссылающиеся на конкурентов и выявить, каким образом они были использованы.

Как найти все поддомены сайта и проверить внутренние ссылки.

Внесите в ReverseInternet корневой URL-адрес домена, после кликните по вкладке «Subdomains», чтобы увидеть список поддоменов.

После этого задействуйте Scrape Similar, чтобы собрать список URL, используя запрос XPath:

Как сканировать коммерческий или любой другой большой сайт.

Screaming Frog не предназначена для того, чтобы сканировать сотни тысяч страниц, однако имеется несколько мер, позволяющих предотвратить сбои в программе при сканировании больших сайтов. Во-первых, вы можете увеличить объем памяти, используемой Пауком. Во-вторых, вы можете отключить сканирование подкаталога и работать лишь с определенными фрагментами сайта, задействуя инструменты включения и исключения. В-третьих, вы можете отключить сканирование изображений, JavaScript, CSS и флеш-файлов, сделав акцент на HTML. Это сбережет ресурсы памяти.

Совет: Если раньше при сканировании больших сайтов требовалось ждать весьма долго окончания выполнения операции, то Screaming Frog позволяет ставить паузу на процедуру использования больших объемов памяти. Эта ценнейшая опция позволяет вам сохранить уже полученные результаты до того момента, когда программа предположительно готова дать сбой, и увеличить размеры памяти.

На данный момент такая опция подключена по умолчанию, но если вы планируете сканировать большой сайт, то лучше все же убедиться, что в меню конфигурации Паука, во вкладке «Advanced» стоит галочка в поле «Pause On High Memory Usage».

Как сканировать сайт, размещенный на старом сервере.

В некоторых случаях старые серверы могут оказаться неспособны обрабатывать заданное количество URL-запросов в секунду. Чтобы изменить скорость сканирования в меню «Configuration» откройте раздел «Speed» и во всплывающем окне выберите максимальное число потоков, которые должны быть задействованы одновременно. В этом меню вы также можете выбрать максимальное количество URL-адресов, запрашиваемых в секунду.

Совет: Если в результатах сканирования вы обнаружите большое количество ошибок сервера, перейдите во вкладку «Advanced» в меню конфигурации Паука и увеличите значение времени ожидания ответа (Response Timeout) и число новых попыток запросов (5xx Response Retries). Это позволит получать лучшие результаты.

Как сканировать сайт, который требует cookies.

Хотя поисковые роботы не принимают cookies, если при сканировании сайта вам требуется разрешить cookies, то просто выберите «Allow Cookies» во вкладке «Advanced» меню «Configuration».

Как сканировать сайт, используя прокси или другой пользовательский агент.

В меню конфигурации выберите «Proxy» и внесите соответствующую информацию. Чтобы сканировать, задействуя иной агент, выберите в меню конфигурации «User Agent», после из выпадающего меню выберите поисковый бот или введите его название.

Как сканировать сайты, требующие авторизации.

Когда Паук Screaming Frog заходит на страницу, запрашивающую идентификацию, всплывает окно, в котором требуется ввести логин и пароль.

Для того чтобы впредь обходиться без данной процедуры, в меню конфигурации, во вкладке «Advanced» снимите флажок с опции «Request Authentication».

Внутренние ссылки

Что делать, когда требуется получить информацию о внешних и внутренних ссылках сайта (анкорах, директивах, перелинковке и пр.).

Если вам не нужно проверять на сайте изображения, JavaScript, Flash или CSS, то исключите эти опции из режима сканирования, чтобы сберечь ресурсы памяти.

После завершения Пауком сканирования, используйте меню «Advanced Export», чтобы из базы «All Links» экспортировать CSV. Это предоставит вам все ссылочные локации и соответствующие им анкорные вхождения, директивы и пр.

Для быстрого подсчета количества ссылок на каждой странице перейдите во вкладку «Internal» и отсортируйте информацию через опцию «Outlinks». Все, чтобы будет выше 100-ой позиции, возможно, потребует дополнительного внимания.

Как найти неработающие внутренние ссылки на страницу или сайт.

Как и всегда, не забудьте исключить изображения, JavaScript, Flash или CSS из объектов сканирования, дабы оптимизировать процесс.

После окончания сканировния Пауком, отфильтруйте результаты панели «Internal» через функцию «Status Code». Каждый 404-ый, 301-ый и прочие коды состояния будут хорошо просматриваться.

Читайте также:  Изучение английского языка с уровня intermediate

При нажатии на каждый отдельный URL в результатах сканирования в нижней части окна программы вы увидите информацию. Нажав в нижнем окне на «In Links», вы найдете список страниц, ссылающихся на выбранный URL-адрес, а также анкорные вхождения и директивы, используемые на этих страницах. Используйте данную функцию для выявления внутренних ссылок, требующих обновления.

Чтобы экспортировать в CSV формате список страниц, содержащих битые ссылки или перенаправления, используйте в меню «Advanced Export» опцию «Redirection (3xx) In Links» или «Client Error (4xx) In Links», либо «Server Error (5xx) In Links».

Как выявить неработающие исходящие ссылки на странице или сайте (или все битые ссылки одновременно).

Аналогично делаем сначала акцент на сканировании HTML-содержимого, не забыв при этом оставить галочку в пункте «Check External Links».

По завершении сканирования выберите в верхнем окне вкладку «External» и при помощи «Status Code» отфильтруйте содержимое, чтобы определить URL с кодами состояния, отличными от 200. Нажмите на любой отдельный URL-адрес в результатах сканирования и после выберите вкладку «In Links» в нижнем окне – вы найдете список страниц, которые указывают на выбранный URL. Используйте эту информацию для выявления ссылок, требующих обновления.

Чтобы экспортировать полный список исходящих ссылок, нажмите на «Export» во вкладке «Internal». Вы также можете установить фильтр, чтобы экспортировать ссылки на внешние изображения, JavaScript, CSS, Flash и PDF. Чтобы ограничить экспорт только страницами, сортируйте посредством опции «HTML».

Чтобы получить полный список всех локаций и анкорных вхождений исходящих ссылок, выберите в меню «Advanced Export» позицию «All Out Links», а после отфильтруйте столбец «Destination» в экспортируемом CSV, чтобы исключить ваш домен.

Как найти перенаправляющие ссылки.

По завершении сканирования выберите в верхнем окне панель «Response Codes» и после отсортируйте результаты при помощи опции «Redirection (3xx)». Это позволит получить список всех внутренних и исходящих ссылок, которые будут перенаправлять. Применив фильтр «Status Code», вы сможете разбить результаты по типам. При нажатии «In Links» в нижнем окне, вы сможете увидеть все страницы, на которых используются перенаправляющие ссылки.

Если экспортировать информацию прямо из этой вкладки, то вы увидите только те данные, которые отображаются в верхнем окне (оригинальный URL, код состояния и то место, в которое происходит перенаправление).

Чтобы экспортировать полный список страниц, содержащих перенаправляющие ссылки, вам следует выбрать «Redirection (3xx) In Links» в меню «Advanced Export». Это вернет CSV-файл, который включает в себя расположение всех перенаправляющих ссылок. Чтобы показать только внутренние редиректы, отфильтруйте содержимое в CSV-файле с данными о вашем домене при помощи колонки «Destination».

Совет: Поверх двух экспортированных файлов используйте VLOOKUP, чтобы сопоставить столбцы «Source» и «Destination» с расположением конечного URL-адреса.

Пример формулы выглядит следующим образом:
=VLOOKUP([@Destination],’response_codes_redirection_(3xx).csv’!$A$3:$F$50,6,FALSE). Где «response_codes_redirection_(3xx).csv» — это CSV-файл, содержащий перенаправляющие URL-адреса и «50» — это количество строк в этом файле.

Контент сайта

Как идентифицировать страницы с неинформативным содержанием (т.н. «thin content» − «токний контент»). ­

После завершения работы Spider перейдите в панель «Internal», задав фильтрацию по HTML, а после прокрутите вправо к столбцу «Word Count». Отсортируйте содержимое страниц по принципу количества слов, чтобы выявить те, на которых текста меньше всего. Можете перетащить столбец «Word Count» влево, поместив его рядом с соответствующими URL-адресами, сделав информацию более показательной. Нажмите на кнопку «Export» во вкладке «Internal», если вам удобнее работать с данными в формате CSV.

Помните, что Word Count позволяет оценить объем размещенного текста, однако не дает решительно никаких сведений о том, является ли этот текст просто названиями товаров/услуг или оптимизированным под ключевые слова блоком.

Если требуется выделить с конкретных страниц список ссылок на изображения.

Если вы уже просканировали весь сайт или отдельную папку, то просто выберите страницу в верхнем окне, после нажмите «Image Info» в нижнем окне, чтобы просмотреть изображения, которые были найдены на этой странице. Картинки будут перечисляться в столбце «To».
Совет: Щелкните правой кнопкой мыши на любую запись в нижнем окне, чтобы скопировать или открыть URL-адрес.

Вы можете просматривать изображения на отдельно взятой странице, сканируя именно этот URL-адрес. Убедитесь, что глубина сканирования в настройках конфигурации сканирования Паука имеет значение «1». После того, как страница просканируется, перейдите во вкладку «Images», и вы увидите все изображения, которые удалось обнаружить Spider.

Наконец, если вы предпочитаете CSV, используйте меню «Advanced Export», опцию «All Image Alt Text», чтобы увидеть список всех изображений, их местоположение и любой связанный с ними замещающий текст.

Как найти изображения, у которых отсутствует замещающий текст или изображения, имеющие длинный Alt-текст.

Прежде всего, вам нужно убедиться, что в меню Паука «Configuration» выбрана позиция «Check Images». По завершении сканирования перейдите во вкладку «Images» и отфильтруйте содержимое при помощи опций «Missing Alt Text» или «Alt Text Over 100 Characters». Нажав на вкладку «Image Info» в нижнем окне, вы найдете все страницы, на которых размещаются хотя бы какие-нибудь изображения. Страницы будут перечислены в столбце «From».

Вместе с тем, в меню «Advanced Export» вы можете сэкономить время и экспортировать «All Image Alt Text» (Все картинки, весь текст) или «Images Missing Alt Text» (Картинки без Alt-тега) в формат CSV.

Как найти на сайте каждый CSS-файл.

В меню конфигурации Паука перед сканированием выберите «Check CSS». По окончании процесса отфильтруйте результаты анализа в панели «Internal» при помощи опции «CSS».

Как найти файлы JavaScript.

В меню конфигурации Паука перед сканированием выберите «Check JavaScript». По окончании процесса отфильтруйте результаты анализа в панели «Internal» при помощи опции «JavaScript».

Как выявить все плагины jQuery, использованные на сайте, и их местоположение.

Прежде всего, убедитесь, что в меню конфигурации выбрано «Check JavaScript». По завершении сканирования примените в панели «Internal» фильтр «JavaScript», а после сделайте поиск «jQuery». Это позволит вам получить список файлов с плагинами. Отсортируйте перечень по опции «Address» для более удобного просмотра. Затем просмотрите «InLinks» в нижнем окне или экспортируйте информацию в CSV. Чтобы найти страницы, на которых используются файлы, поработайте со столбиком «From».

Вместе с этим, вы можете использовать меню «Advanced Export», чтобы экспортировать «All Links» в CSV и отфильтровать столбец «Destination», дабы просматривать исключительно URL-адреса с «jquery».

Совет: Плохими для СЕО являются не только все плагины jQuery. Если вы видите сайт, использующий jQuery, то разумно будет убедиться, что контент, который вы собираетесь проиндексировать, включен в исходный код страницы и выдается при загрузке страницы, а не после этого. Если вы не уверены в данном аспекте, то почитайте о плагине в интернете, чтобы побольше узнать о том, как он работает.

Как определить, где на сайте размещается flash.

Перед сканированием в меню конфигурации выберите «Check SWF». А по завершении работы Паука отфильтруйте результаты в панели «Internal» по значению «Flash».

Как найти на сайте внутренние PDF-документы.

После завершения сканирования отфильтруйте результаты работы Spider при помощи опции «PDF» в панели «Internal».

Как выявить сегментацию контента в пределах сайта или группы страниц.

Если вы хотите найти на сайте страницы, содержащие необычный контент, установите пользовательский фильтр, выявляющий печати HTML, не свойственные данной странице. Сделано это должно быть до запуска Паука.

Как найти страницы, имеющие кнопки социального обмена.

Для этого перед запуском Паука нужно будет установить пользовательский фильтр. Для его установки перейдите в меню конфигурации и нажмите «Custom». После этого введите любой фрагмент кода из исходного кода страницы.

Источник

Мастерица
Adblock
detector