Индексирование https сайтов Google
Недавно бесплатно консультировал Украинскую Биржу Благотворительности. В том числе и по SEO, хотя делаю это крайне редко.
Новой команде в наследство попался сайт со множеством странностей. Например, по умолчанию всегда открывается версия сайта на https (защищенное соединение).
Про кучу страниц с одинаковым мета-тегом title я вообще молчу.
Новая команда уже об этом знает и готовит новый сайт. Но пока новый сайт будет готов — нужно залатать пару основных дыр.
Одна из «дыр» — сайт не индексировался в Google. В индексе поисковой было штук 10 страниц. По запросам «украинская биржа благотворительности» и «українська біржа благодійності» сайта не было в ТОП-10. При этом Яндекс индексировал всё нормально.
Первым делом я подумал на программистов или системных администраторов. Такое иногда бывает. Программисты могут решить, что с определенного ip-адреса идёт много запросов к сайту и заблокировать доступ с этого ip адреса. В моей практике случалось, что программисты таким образом блокировали ip поисковых систем.
Спросил. Сказали, что запретов по ip нет.
Потом попросил доступ к Webmaster Tools. Там отображалась ошибка: «Google не удалось просканировать ваш сайт, так как закрыт доступ к файлу robots.txt». Как бы странно, если robots.txt нету — обычно поисковая система проиндексирует всё, что найдёт.
Воспользовался инструментом «Просмотреть как Googlebot» (Fetch as Google) — та же ошибка:
И тогда возникла гипотеза: Google по-умолчанию не индексирует сайты на https, если нету robots.txt.
Логика такая — если сайт на https, то там хранятся какие-то данные, которые должны быть доступны только безопасно. Если программист / системный администратор не загрузил файл robots.txt — то скорее всего он не думает о том, чтобы сайт был доступен для поисковых систем.
Вместе с программистом загрузили robots.txt и сделали пару запросов с разными страницами в инструменте «Просмотреть как Googlebot». Ошибок не было. Зато появилась кнопка «Отправить в индекс». И дальше выбор: только эту страницу или все. Отправили все.
Прошли сутки, и вуаля — робот Google просканировал за день 3700 страниц. И сайт вылез по своему названию в ТОП Google. Дело сдвинулось.