Роботы поисковых систем нередко обрабатывают PDF-файлы, электронные таблицы и презентации. Новая публикация в рассказывает о том, как проходит индексация таких страниц.

Как известно, и Google это подтверждает, поисковая система умеет индексировать текст из документов PDF, написанный на любом языке. Основное условие при этом — чтобы текст не был зашифрован или сам файл не был защищен паролем. По заявлению Google, текст может извлекаться с помощью OCR алгоритмов, даже в случаях, когда он представлен в виде изображения. Примечательно, что изображения в PDF-файлах не индексируются. Также стоит отметить, что ссылки в PDF-файлах обрабатываются таким же образом, что и ссылки в HTML-коде.

И главное заявление Google: HTML-файлы не имеют никаких преимуществ перед PDF-файлами в глазах поисковых алгоритмов, то есть PDF может оказаться в ТОПе выдачи, обогнав страницы с HTML-кодом. Главное, чтобы файл содержал контент высокого качества и чтобы на него вели ссылки с других ресурсов.

Google отмечает, что воспретить к индексации PDF-файлы можно с помощью X-Robots-Tag: noindex в заголовке HTTP.
При обработке PDF-документов в результатах поиска используются метаданные title в файле и текст анкоров тех ссылок, которые ведут на PDF. Чтобы сообщить поисковой системе о правильном названии документа, рекомендуется обновить оба элемента.

Источник:



Похожие записи:

Меня читают

  • отдых во вьетнаме отзывы туристов