Все права на текст принадлежат автору: Поля Блю.
Это короткий фрагмент для ознакомления с книгой.
SEO для ЧайниковПоля Блю

Поля Блю.

SEO для Чайников.

Практический курс по продвижению сайтов в поисковых системах.


Глава 1.

«Архитектура поисковых систем. Матрикснет»


План:


Яндекс

1.1. Архитектура ответа на вопрос

1.2. Индексирование интернета

1.3. Поисковая база

1.4. Язык запросов

1.5. Оценка качества поиска

1.6. Колдунщики

1.7. Роботы ПС Яндекс

Матрикснет

Google

3.1. Основные сведения о Google


3.2 Архитектура Google


3.3 Роботы Google


3.4 Оценка качества ресурсов



3.5 Специальные поисковые запросы


1. Яндекс

1.1. Архитектура ответа на вопрос

Каждый день пользователи задают Яндексу десятки миллионов запросов, и поисковая система должна не только точно отвечать, но и быстро обрабатывать весь этот поток. Для этого Яндекс использует заранее подготовленные данные — индекс.


Безусловно, поиск с помощью индекса ускоряет процесс ответа пользователю, как, например, предметный указатель в книге помогает быстрее найти нужное слово. Но размеры самого «предметного указателя» в поиске — огромны. Чтобы обрабатывать такие объемы данных и делать это быстро, Яндекс использует тысячи серверов. Сервера объединены в кластеры и даже в кластеры кластеров.

Рис. 1. Архитектура ответа на вопрос в ПС Яндекс.


Все пользовательские запросы сначала попадают в компьютерную систему «метапоиск» (рис. 1).

«Метапоиск» обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос (из какого региона он был задан, к какому классу относится и т.п.), проводит лингвистическую обработку. Затем метапоиск проверяет, формировались ли в последнее время результаты поиска для этого запроса. Результаты поиска по часто задаваемым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз заново. И если вновь пришедший запрос оказался популярным, метапоиск покажет пользователю заранее сохраненные результаты.


Если же ответа в памяти нет, то метапоиск передаёт запрос на сервера другой компьютерной системы — «базового поиска» (рис. 1).

На базовом поиске хранится слепок интернета, по которому ищет Яндекс, — поисковая база. Она разбита на части, которые хранятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у каждого сервера есть несколько копий. Это позволяет распределять нагрузку и не терять данные — если один из серверов не сможет своевременно ответить, информация всё равно найдется на дублирующих серверах. Из тысяч серверов базового поиска метапоиск выбирает наименее загруженные – таким образом, чтобы вместе они содержали целую поисковую базу.


Каждый из серверов отдаёт список документов, в которых есть слова из запроса, обратно в метапоиск. Там они объединяются, ранжируются с помощью технологии Матрикснет и попадают на страницу результатов поиска (рис. 1).


Благодаря такой организации поиск Яндекса может отвечать пользователю за доли секунды.


1.2. Индексирование интернета

1.2.1. Понятие индекса

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в экзабайтах, то есть в миллиардах миллиардов байтов. Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая система, так сказать, делает домашнее задание.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней. Индекс можно сравнить с предметным указателем в книге или адресным справочником. В отличие от обычного предметного указателя, индекс содержит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень много «мест прописки».


1.2.2. Подготовка к ответам

Подготовка данных, по которым ищет поисковая машина, называется индексированием. Специальная компьютерная система — поисковый робот — регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом обходе.


У Яндекса два поисковых робота — основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.


Когда при обходе робот видит на уже известных сайтах новые ссылки, он добавляет их в свой список, увеличивая количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы — через сервис Яндекс.Вебмастер.


Сначала программа-планировщик выстраивает маршрут — очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдаёт его другой части поискового робота — «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.


Там программа разбирает документ по кирпичику: очищает от html-разметки, оставляя чистый текст, выделяет данные о местоположении каждого слова и добавляет их в индекс. Сам документ в исходном виде также остается в хранилище до следующего обхода. Благодаря этому пользователи могут найти в Яндексе и посмотреть документы, даже если сайт временно недоступен. Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.


1.3. Поисковая база

Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется постоянно, но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск — сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов.


Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — раз в несколько дней. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.


Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные.


Можно сказать, что поиск в интернете состоит из двух больших частей. Первая — когда Яндекс ищет различные документы в интернете и составляет поисковый индекс. Вторая — когда система ищет ответ на конкретный запрос пользователя в уже подготовленной поисковой базе.


1.4. Язык запросов

Яндекс обладает мощным языком запросов, позволяющим наиболее точно формулировать свой запрос поисковой системе, учитывая малейшие нюансы ее поведения. Наиболее популярные критерии поиска можно задавать с помощью расширенного поиска, знание же языка запросов дает возможность решать самые сложные поисковые задачи.


1.5. Оценка качества поиска

Яндекс стремится находить ответ на запрос пользователя, предоставляя на странице результатов информацию и ссылки на нее в интернете. Следование рекомендациям Яндекса по созданию качественного сайта, поможет в индексировании и лучшем ранжировании ресурса, в то время как применение обманных техник может привести к понижению его позиций или исключению его из поиска.


1.5.1. Основные принципы качественного сайта (по мнению ПС Яндекс):


Создавайте сайты с оригинальным контентом или сервисом. Реклама не является той ценностью, ради которой пользователи приходят на сайт.

Думайте о пользователях, а не о поисковых системах. Стали бы вы создавать сайт, страницу или ее элемент, если бы не существовало поисковиков? Приходят ли пользователи на ваш сайт или интернет-магазин не только из поисковых систем?

Ставьте только те ссылки, которые будут полезны и интересны пользователям вашего ресурса. Не ссылайтесь только потому, что вас попросили сослаться.

Тщательно продумайте дизайн — он должен помогать пользователям увидеть главную информацию, ради которой сайт создан.

Будьте честны. Привлечь пользователей по запросам, на которые ваш сайт не может достойно ответить, не значит удержать их. Думайте о том, что пользователь получит, придя на Ваш сайт.


1.5.2. Метрика pfound


Имея ранжированную страницу с результатами поиска, где все URL оценены асессорами, ПС Яндекс оценивает качество поиска с помощью специальной метрики pfound. Она вычисляет вероятность того, что человек нашел то, что искал на странице выдачи, суммируя такие вероятности для разных URL — каждой из четырех оценок асессора присвоена своя вероятность полезности.


, где pRel — релевантность i-того документа (вероятность того, что пользователь найдет ответ в этом документе), pLook — вероятность просмотра i-того документа в выдаче.


При этом в ходе суммирования учитывается, что вероятность полезности этой строки нужно умножать на вероятность того, что ее вообще прочитают. То, что нужно пользователю, может найтись в предыдущей строчке, кроме того, он может просто устать и прекратить чтение списка. В общем, получается такая формула суммирования вероятностей, которая и позволяет нам оценивать качество поиска — как своего, так и конкурентов.


1.6. Колдунщики

На вопросы пользователей отвечает не только поиск по вебу, но и другие сервисы Яндекса. Например, Яндекс.Новости рассказывают, что сейчас происходит в мире, а Яндекс.Погода — при какой температуре и атмосферном давлении это всё в мире происходит. Яндекс ищет ответы на своих сервисах вместе с поиском по вебу и те из них, что хорошо отвечают на запрос, показывает прямо в результатах поиска. Такой поиск называется параллельным, а его результаты, которые появляются вместе с результатами веб-поиска — колдунщики.


Искать дополнительные ответы на своих сервисах Яндекс впервые стал в 2000 году, подключив к поиску ленту новостей и базу товаров интернет-магазинов.


Сейчас у Яндекса уже много сервисов, у которых могут быть ответы на один и тот же запрос. Например, по запросу [Стинг] помимо ссылок на веб-страницы о музыканте и его творчестве Яндекс также может предложить послушать его песни, которые есть на Яндекс.Музыке, посмотреть фото, найденные Яндекс.Картинками или видеоклипы, найденные Яндекс.Видео.


Колдунщики — это информационные блоки в результатах поиска с ответами от сервисов Яндекса.


Соответственно, на некоторые из запросов в результатах поиска может появляться несколько колдунщиков. Какие колдунщики и в каком порядке показывать — решает специальная система. Она состоит из пяти частей. Четыре из них выясняют, у какого из сервисов Яндекса может быть ответ на запрос. Они называются «кубики», по аналогии с детскими кубиками, где букве алфавита соответствует картинка. Пятая называется «решатель». Решатель «составляет слово» из кубиков — выбирает подходящие колдунщики и ранжирует их.


1.7. Роботы ПС Яндекс

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

Какие бывают индексирующие роботы:

В Яндексе есть несколько видов роботов, которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам. Или робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.

В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.

IP-адресов, с которых «приходят» роботы Яндекса, тоже много, и они часто меняются. Поэтому Яндекс не разглашает их список и не рекомендует использовать фильтрацию на их основе.


Роботы Яндекса:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот;

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексатор Яндекс.Картинок;

Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексатор Яндекс.Видео;

Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные;

Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — робот поиска по блогам, индексирующий комментарии постов;

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons);

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервиса Яндекс.Вебмастер;

Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»;

Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов;

Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — робот Яндекс.Директаособым образом интерпретирует robots.txt;

Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией;

Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок;

Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот  Рекламной сети Яндекса;

Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — робот Яндекс.Метрики;

Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — робот Яндекс.Новостей;

Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов;

Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Каталога, используется для временного снятие с публикации недоступных сайтов в Каталоге;

Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода;

Mozilla/5.0 (compatible; YandexZakladki/3.0; +http://yandex.com/bots) — «простукивалка» Яндекс.Закладок, используется для проверки доступности страниц, добавленных в закладки;

Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — робот Яндекс.Маркета;

Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей;

Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — робот Яндекс.Календаря, используется для синхронизации с другими календарями, особым образом интерпретирует robots.txt.


2. Матрикснет

Матрикснет — метод машинного обучения, который используется в Яндексе для построения формулы ранжирования. Внедрен в ноябре 2009 года вместе с алгоритом «Снежинск».

Важная особенность этого метода – в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования – и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности.

Особенности Матрикснета:


можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Другие методы машинного обучения позволяют либо строить более простые формулы с меньшим количеством факторов, либо нуждаются в большей обучающей выборке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск;


формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. Например, улучшить качество поиска только по запросам про музыку. При этом ранжирование по остальным классам запросов не ухудшится. Для примера можно представить себе формулу ранжирования в виде сложного механизма с большим количеством ручек. На механизмах, построенных по другим технологиям, каждая ручка влияет на все запросы. Матрикснет дает возможность настроить каждую ручку отдельно для своего класса запросов.


3. Google


3.1. Основные сведения о Google


Если представить все в максимально упрощенном виде, то веб-поиск можно сравнить с просмотром огромной книги, имеющей очень длинное оглавление, в котором подробно указано, где что находится. Когда вы выполняете поиск Google, наши программы проверяют индекс с целью определить наиболее релевантные результаты поиска, которые вы получаете.


3.1.1 Сканирование


Сканирование – это процесс, в ходе которого робот Googlebot обнаруживает новые и обновленные страницы для добавления в индекс Google.


Google использует огромную сеть компьютеров, чтобы извлечь (или "просканировать") содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google (или пауком). Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.


Процесс сканирования Google начинается со списка URL веб-страниц, созданного на основе предыдущих сеансов сканирования. Его дополняют данные из файлов Sitemap, предоставленных веб-мастерами. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновленные сайты, а также неработающие ссылки.


3.1.2 Индексирование


Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, в какой части страницы они находятся. Кроме того, обрабатываются данные из основных тегов и атрибутов, например тегов Title и атрибутов ALT. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддается содержание некоторых файлов мультимедиа и динамически создаваемых страниц.


3.1.3 Предоставление результатов


Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдает наиболее релевантные результаты. Релевантность определяется различными факторами. Один из них – это рейтинг PageRank для конкретной страницы. PageRank является показателем "важности" страницы и определяется на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу вашего сайта с другого сайта увеличивает PageRank вашего сайта. Не все ссылки равноценны. Google непрерывно совершенствуем алгоритмы оценки ссылок, чтобы отсеивать спам и другие данные, негативно влияющие на качество результатов поиска. Наибольший вес имеют ссылки, размещение которых связано с качеством содержания вашего сайта.


Для обеспечения адекватного рейтинга сайта на страницах результатов поиска важно, чтобы робот Google мог корректно сканировать и индексировать сайт.


3.2. Архитектура Google


По данным Comscore, за два последних месяца 2012 года этот поисковик обработал 114,7 млрд запросов — это соответствует 65,2% мирового рынка поиска. Показатели ближайшего конкурента, китайского Baidu, в восемь раз меньше. Да что там говорить, у психологов даже специальный термин есть — Google Effect: современным людям, оказывается, проще не запоминать факты, а в нужный момент отыскать их в интернете.


Такая популярность означает, что размеры поискового индекса Google не просто огромны: они трудновообразимы. Не все осознают, что когда мы вводим в поисковую строку насущный для нас запрос, то обращаемся к одному из самых крупных хранилищ данных в мире. Ещё поразительнее другое: для того чтобы отыскать в петабайтах информации ответ на наш запрос, Google хватает доли секунды.



Самым важным достижением Google является построение архитектурной пирамиды своего детища — аппаратно-программной структуры системы хранения и индексирования веб-контента, допускающей практически неограниченное масштабирование.

В основании пирамиды лежит кластерный массив, единичным узлом которого был недорогой и далеко не лучший по надёжности компьютер — сервер Google. Его архитектура была разработана в 2005 году. В то время как дорогостоящие отказоустойчивые кластеры использовали сложные системы резервного питания, каждый из серверов Google толщиной в 3,5 дюйма (2U в стоечной терминологии) имел собственную двенадцативольтовую батарейку.

Использование в качестве резервного источника питания не централизованной системы бесперебойного питания, а недорогих батарей, монтируемых прямо на сервере, многократно снизило затраты на аппаратную составляющую империи Google. Договориться с поставщиком материнских плат (на первых порах эту роль играла компания Gigabyte) о небольшой модификации блока распределения напряжения оказалось куда дешевле, чем городить отработанные кем-то решения по резервированию питания.



Google File System (GFS)— собственная файловая система, рассчитаная на работу в условиях, когда аппаратные и сетевые сбои являются нормой, а не чрезвычайной ситуацией. То есть они отказались от стандартных NFS и AFS.

MapReduce

- технология обработки данных на больших кластерах

Google

. Эффективно хранить в распределённой и склонной к отказам среде поступающий контент и получаемую на его основе индексную базу, конечно же, здорово, однако самая суть работы любого поисковика — быстрый и экономичный алгоритм создания индексной базы. Ведь, в конце концов, именно благодаря ему наши ключевые слова в строке поиска превращаются в ссылки на конкретные ресурсы.


3.3. Роботы Google


Поисковыми роботами принято называть любые программы (такие как роботы или пауки), которые автоматически обнаруживают и сканируют веб-сайты, переходя по ссылкам от страницы к странице. Основной поисковый робот Google называется Googlebot. В следующей таблице приведены сведения о популярных поисковых роботах Google, регистрируемых в журналах источников ссылок. Кроме того, показано, как задавать этих роботов в файле robots.txt, в метатегах robots и в командах X-Robots-Tag HTTP.


Поисковый робот

Специализация/предназначение


Робот Googlebot (веб-поиск Google)

Основной робот


Googlebot News

Новостной (принцип быстрого робота)


Googlebot Images

Изображения


Googlebot Video

Видео контент


Google Mobile

Индексация мобильного контента.


Google Mobile AdSense

Мобильные объявления


Google AdSense

Сервис контекстной рекламы от Google.


Google AdsBot

Проверка качества целевой страницы



3.4. Оценка качества ресурсов


Руководство для веб-мастеров содержит технические рекомендации, советы по дизайну и обеспечению качества. Ниже приведены советы по оптимизации сайта для Google:

3.4.1. Предоставьте посетителям необходимую информацию


Создайте высококачественное содержание для своих страниц, особенно для главной. При разработке полезного и информативного сайта создавайте страницы с четким и точным описанием их тематики.

3.4.2. Приложите усилия, чтобы на других сайтах были ссылки на ваш сайт


Ссылки повышают вероятность обнаружения вашего сайта нашими сканерами и частоту его отображения в наших результатах поиска. Алгоритмы могут отличать естественные ссылки от неестественных.

3.4.3. Обеспечьте легкий доступ к своему сайту


Создавайте сайт с использованием логической структуры ссылок. На каждую страницу должен быть доступен переход хотя бы по одной статической текстовой ссылке.

Чего не следует делать:


Не заполняйте свои страницы списками ключевых слов, не пытайтесь публиковать разное содержание для поисковых систем и для пользователей, не создавайте страницы, предназначенные только для сканеров.


Не используйте изображения для показа важных имен и названий, а также другого важного содержания и ссылок. Робот не распознает текст, содержащийся в изображениях. Если основное содержание и ключевые слова на вашей странице нельзя перевести в обычный HTML-формат, используйте ALT.


Не создавайте несколько копий страницы под разными URL-адресами. Многие сайты содержат текстовые версии страниц и версии для печати, имеющие такое же содержание, как и соответствующие страницы с графикой. Если на вашем сайте хранится несколько страниц с одинаковым содержанием, вы можете указать URL канонической (предпочитаемой) версии для Google.



3.4. Специальные поисковые запросы


С помощью специальных поисковых запросов можно увидеть пример результатов, показывающих, как Google индексирует ваш сайт. Чтобы увидеть их полный список, воспользуйтесь оператором info:. Пример: info:google.com. Подробнее о каждом типе поиска рассказано ниже.


Памятка специальных запросов Google: https://support.google.com/webmasters/answer/35256?hl=ru


Глава 2.

Введение в поисковые системы. Формула ранжирования


Введение в поисковые системы. Формула ранжирования


1.1 Краткое введение в поисковые системы

1.2 Поисковая система глазами посетителя и владельца сайта

1.3 Формула ранжирования



1. Введение в поисковые системы



1.1 Краткое введение в поисковые системы


Поисковая оптимизация (search engine optimization, SEO) — комплекс мер для улучшения видимости сайта в результатах выдачи поисковых систем по определенным запросам пользователей с целью продвижения сайта. То есть в первую очередь смысл заключается в том, чтобы занять ТОПовые места в поисковых системах при выдаче определенных запросов необходимой тематики.


В Рунете особой популярностью пользуются следующие поисковые системы:


1-е место: Яндекс - 57.9% (основной поиск + поиск по картинкам)


2-е место: Гугл - 39.2% (основной поиск + поиск по картинкам)

3-е место: Поиск Mail.ru - 1.6%


4-е место: Рамблер - 0.12%



Остальные поисковики имеют менее процента доли поискового рынка в России.


С помощью специальных алгоритмов поисковые роботы собирают и индексируют информацию (заносят ее в базу данных, где она структурируется и располагается в определенном порядке). Когда пользователь вводит запрос в строку поиска, автоматически формируется обращение к базе данных. После этого система выдает в виде нумерованного списка наиболее релевантные (релевантность - степень соответствия запроса поисковой выдаче) документы. Сортировка документов (ранжирование - это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу) и присвоение им позиции в поисковой выдаче осуществляется на основе их значимости.


Техники оптимизации можно разделить на две категории:


Белая оптимизация - работа над сайтом без применения официально запрещённых каждой поисковой системой методов раскрутки ресурса - без влияния на поисковые алгоритмы сайтов.


Чёрная оптимизация - методы, которые противоречат правилам поисковых систем. Среди них можно выделить следующие: использование скрытого текста на страницах сайта, использование «однопиксельных ссылок» и т.д. Последствия применение данной оптимизации: понижение позиции сайта на страницах результатов или в худшем случи - полное удаление сайта из индекса поисковика.

Резюмируем:

Что же такое SEO? В первую очередь, это комплекс методов. Они направлены на улучшение свойств видимости ресурса поисковой системой, влияние на степень ранжирования результатов поиска, получение целевого трафика. Профессия «SEO-оптимизатора» включает в себя не только раскрутку ресурса, не только «юзабилити-планирование», не только работу с контентом. Профессия SEO-оптимизатора подразумевает понимание психологии целевой аудитории, требует определённого уровня знаний web-технологий и общей грамотности.



1.2 Поисковая система глазами посетителя и владельца сайта

Сервис поиска – это коммерческое предприятие, ориентированное на прибыль. Цель поисковой системы – привлечь и удержать как можно большее количество пользователей, получая возможность зарабатывать на рекламе и ряде прочих аналогичных услуг или сервисов.


Чем больше людей пользуется поиском, тем больше рекламы можно продать, поэтому между поисковыми системами ведется конкурентная борьба – чтобы удержать пользователей, необходимо постоянно улучшать результаты поиска, строить качественную актуальную выдачу, а также предоставлять дополнительные услуги – игры, сервисы, приложения.


Цель пользователянайти наиболее адекватный, релевантный ответ на свой запрос. Формируя запрос, каждый пользователь поисковой системы преследует одну из трех целей:


1. Информационную узнать определенную информацию, например, как приготовить салат с авокадо или какие санитарно-гигиенические требования предъявляются к офисам.


2. Навигационнуюнайти сайт компании, название фирмы; уточнить схему проезда или конкретный адрес.


3. Транзакционную совершить конкретное действие — купить автомобиль, забронировать гостиницу или скачать мелодию.


Чтобы привлекать пользователей из поисковых систем, выладельцам сайтов важно понимать механизмы работы поисковиков и основные принципы ранжирования. Для этого на свой сайт и сайты конкурентов следует смотреть с двух позиций: и как владельца, и как рядового посетителя сайта. Сейчас поисковые системы все больше стараются «видеть» сайт именно глазами рядового посетителя.


Цель владельца сайтаразместить наиболее эффективный контент, рекламу, услугу на базе поисковой системы, используя её целевую аудиторию.


Для того чтобы пользователь из посетителя сайта превратился в покупателя, необходимо сделать все возможное, чтобы ему было приятно, удобно и комфортно оставаться на сайте, как можно дольше. Тут важно не только разнообразить контент и интересный интерфейс, но и улучшать качество самого товара, улучшать сервис по предоставлению услуг, иметь положительные отзывы о вашей компании или предприятии, иметь приемлемые, конкурентоспособные цены.

Резюмируем: Цель поисковых систем – удерживать и привлекать посетителей, чтобы зарабатывать на продаже рекламы. Цель пользователя – найти наиболее адекватный, релевантный ответ на свой запрос. Цель рекламодателей – размещать максимально эффективную рекламу за счет работы с целевой аудиторией на базе поисковой системы. Для того чтобы пользователь из посетителя сайта превратился в покупателя, необходимо сделать все возможное, чтобы ему было приятно, удобно и комфортно оставаться на сайте, как можно дольше.


1.3 Формула ранжирования


Яндекс использует формулу ранжирования основанную на системе машинного обучения под названием MatrixNet. В ней построением формулы занимается алгоритм, которому на вход подаются оценки сделанные специальными людьми (асессорами).


Асессоры - специалисты Яндекса, которые занимаются оценкой того, насколько та или иная страница подходит для ответа на тот или иной запрос. Что они делают:


Они берут поисковые запросы и документы, которые поиск находит по этим запросам, и оценивают, насколько хорошо найденный документ отвечает на заданный запрос. Оцениваются пары запрос-URL, при этом выставляются оценки: «витальный», «важный», «релевантный +», «релевантный» или «нерелевантный». Каждой из оценок соответствует некая вероятность того, что человек найдет на этом сайте то, что ему нужно.


Оценка происходит на основе инструкции асессора. Из запросов и хороших ответов составляется обучающая выборка. Она должна содержать самые разные запросы, причем в тех же пропорциях, в которых их задают пользователи. На обучающей выборке поисковая система устанавливает зависимость между страницами, которые асессоры посчитали релевантными запросам, и свойствами этих страниц. После этого она может подобрать оптимальную формулу ранжирования, которая показывает релевантные запросу сайты среди первых результатов поиска.


Чтобы измерить качество поиска, мы пропускаем случайную выборку запросов через асессоров, которые оценивают пары запрос-URL, выставляя им оценки: «витальный», «важный», «релевантный» или «нерелевантный». Каждой из оценок соответствует некая вероятность того, что человек найдет на этом сайте то, что ему нужно.

Формула ранжирования строится на различных комбинациях нескольких сотен факторов.


Факторы ранжирования — это характеристики алгоритма поисковой системы, по которым оценивается страница сайта и определяется ее позиция в выдаче. Яндекс использует в своих алгоритмах несколько сотен факторов. Поисковая система делит их на четыре большие группы:


Статические - связаны с самой страницей. К таким факторам относятся:


количество ссылок на сайт в интернете,

количество ссылок на страницу (ПейджРанк страницы в Гугле, ВИЦ в Яндексе),

Трастранк.

ИКС


Динамические - связаны одновременно с запросом и страницей. К таким факторам относятся:


присутствие в тексте страницы слов запроса, их количество и расположение (тестовая релевантность),

наличие в анкорах ссылок слов запроса (ссылочное ранжирование).


Запросные - учитывающие признаки поискового запроса. К таким факторам относится:


геозависимость и негеозависимость запроса.


Поведенческие факторы. К таким факторам относятся:


- кликовые факторы,

- поведение пользователей на странице выдачи,

- посещаемость сайта,

- поведение пользователей на сайте.


Далее поисковая машина сравнивает сайты по этим факторам и определяет максимально релевантные ресурсы. Это и называется формулой ранжирования Яндекса, которая подбирается при помощи Матрикснета – метода машинного обучения.


Из сотен факторов ранжирования Яндекса рассмотрим основные:


Возраст сайта


При ранжировании Яндекс учитывает время существования страниц сайта (именно сайта, а не домена). Почему возраст так важен? Чем старше сайт, тем больше о нем информации в базе данных поисковика, страницы таких сайтов быстрее индексируются, доверие к таким ресурсам естественно выше. О новых сайтах (менее 6 месяцев) Яндекс почти ничего не знает и отправляет их в «песочницу» наращивать свою авторитетность. Именно поэтому молодым сайтам так сложно попасть в ТОП выдачи, особенно по высокочастотным запросам.

Правильная привязка сайта к региону, наличие контактной информации


Примерно 30% поисковых запросов являются геозависимыми, иными словами, привязанными к определенному региону.




Принадлежность сайта к региону определяется по ряду признаков. В основном это контактная информация и телефон, указанные на сайте, а также такие косвенные признаки, как текст сайта, его IP-адрес и т.п. Для того, чтобы ваш сайт корректно индексировался по геозависмым запросам, необходимо сделать его привязку к региону в «Вебмастере» Яндекса и указать на сайте правильную контактную информацию.


Оригинальный контент, релевантный целевым поисковым запросам


Поисковая машина так же учитывает контент сайта, его качество и уникальность. Если на сайте размещен оригинальный и интересный тематический контент, то это позволит получить органический трафик по низкочастотным запросам без всякого дополнительного продвижения. За копипасть велика вероятность попадания под фильтр Яндекса, так же под фильтр могут попасть молодые сайты, использующие чужой контент после небольшого рерайта.


Очень негативно Яндекс относится к переоптимизированным текстам, поэтому не стоит злоупотреблять количеством вхождений ключевых слов. Предпочтительная плотность ключевиков должна составлять от 1% до 3-4%. Слишком длинные тексты также не приветствуются, контент в первую очередь создается для посетителей сайта, а значит, он должен быть легким в восприятии и соответствовать тематике ресурса.

Структурирование информации на сайте


Структура сайта должна быть логичной и понятной. Желательно, чтобы любая страница сайта была доступна максимум в три клика. Это облегчит взаимодействие пользователей с ресурсом, а так же позволит ускорить индексацию сайта поисковыми роботами.


Контент желательно делить на абзацы и блоки, обязательно разбавлять иллюстрациями. Это поможет посетителям легче воспринимать информацию.

Дизайн, юзабилити, скорость работы сайта


Яндекс рекомендует тщательно продумывать дизайн сайт, ведь он должен помогать посетителю увидеть главную информацию, ради которой и был создан ресурс.


Важна архитектура и юзабилити. Пользователю должно быть удобно и комфортно взаимодействовать с сайтом, ведь это напрямую влияет на поведенческий фактор, который в последнее время в значительной степени учитывается поисковиком. Если сайт нравится его посетителям, то он скорей всего окажется в ТОП поисковой выдачи.


Отсутствие хорошей навигации, сложная или запутанная структура сайта, неудачное расположение элементов, сложности с регистрацией или оформлением заказа, все это повышает коэффициент отказов. Такую же реакцию вызывает медленная работа сайта или частые сбои в его работе.


Яндекс очень негативно относится к агрессивной рекламе на сайте (особенно это касается popup, popunder и clickunder). Реклама имеет право на существование, но не должна мешать пользователю взаимодействовать с ресурсом.

Цитируемость сайта – количество и качество ссылок с других сайтов, тексты внешних ссылок


Значение внешних ссылок на сайт постепенно снижается, но все еще учитываются Яндексом. Поисковику важно, сколько и какие ресурсы ссылаются на веб-страницу сайта.


При региональном продвижении в анкорах ссылок должна быть региональная принадлежность, очень желательно наличие ссылок с региональных доноров.


Яндекс учитывает тематику ссылающихся сайтов; ссылки с тематических ресурсов придают больший вес ресурсу. Поисковик также ратует за разнообразие источников ссылочной массы. Существует понятие «возраста ссылки», чем она старше, тем лучше для Яндекса.

Наличие цен, информации об оплате и доставке для коммерческих сайтов


Яндекс считает, что в ТОП выдачи должны быть только те сайты, которые помогают решать задачу пользователя. Поэтому, если речь идет об интернет-магазине, то он должен отвечать ряду требований:

Товары должны содержать описания и фотографии.

На сайте необходимо указать контактные данные, а также желательны отзывы других посетителей.

Обязательно наличие информация о стоимости товара, а так же условиях доставки и способах оплаты.

Регистрация и оформление покупки должны быть простыми и понятными.

Все это в первую очередь сказывается на поведенческом факторе посетителей сайта и учитывается Яндексом.


Отсутствие поискового спама


Любые попытки поискового спама строго пресекаются Яндексом. О том, что лучше избегать «серных» и «черных» методов продвижения сайта, известно всем. Не стоит усердствовать и с оптимизацией контента и продажей ссылок с сайта.

Надежный и безопасный хостинг


При ранжировании поисковик учитывает работоспособность сайта, поэтому сайт должен быть доступен 24 часа 7 дней в неделю. Поисковые роботы ежедневно обходят сайты, и если по каким-то причинам ресурс недоступен, это негативно скажется на его позициях в выдаче. Поэтому необходимо поддерживать хостинг в полной суточной работоспособности и не забывать вовремя продлевать срок регистрации домена. Недоступность сайта более 24 часов грозит серьезными потерями позиций в выдаче!

Формула ранжирования Яндекса регулярно совершенствуется. На сегодняшний день Яндексу важно, чтобы посетитель интернет-ресурса максимально удобно и быстро мог получить то, зачем пришел на страницу. От этого напрямую будет зависеть ранжирование сайта.



Поведенческие факторы


В 2019 году это один из сильнейших факторов ранжирования сайта, который может перекрыть почти все остальное, следует работать над улучшением сайта и добавлять фишки, которые повлияют на удержание человека на сайте (видео, калькуляторы, сравнения, избранное, блог), так же нужно иметь конкурентное предложение, чтобы человек после вас не ушел к конкурентам (выгодная доставка, цены, оплата, обратная связь)


Резюмируем: Ранжирование – это упорядочивание результатов поиска в соответствии с запросом пользователя. Формула релевантности Яндекса строится на основе множества факторов ранжирования. Факторы ранжирования - свойства запроса и страницы, которые важны для ранжирования и, которые можно измерить числами. Формула ранжирования Яндекса каждый раз совершенствуется, и на сегодняшней день учитывает качество сайта и услуг.


Глава 3.

Системы веб-аналитики: Яндекс Метрика, Google Analytics, Liveinternet.


Понятие веб-аналитики. Цель веб-аналиики.


Инструменты веб-аналитики:


2.1. Счетчики


2.1.1. Яндекс.Метрика.

2.1.2. Гугл.Аналитикс.


2.2. Анализаторы логов


2.3. Вебвизор


2.4. Анализатор звонков.



Понятие веб-аналитики. Цель веб-аналиики.


Веб-аналитика — сбор, измерение и анализ информации о посетителях сайтов.

Основные задачи:

мониторинг посещаемости веб-сайтов;

определение целевой аудитории;

изучение поведения посетителей;

принятие решений по развитию и расширению функциональных возможностей сайта.

Цели:

увеличение конверсии, повышение эффективности рекламных кампаний.


Инструменты веб-аналитики:


Для сбора веб-статистики существует множество программ и сервисов. Основные:

Счетчики

Анализаторы логов

Вебвизор

Анализаторы звонков


2.1 Счетчики


Счётчик — сервис, предназначенный для внешнего независимого измерения посещаемости сайтов.

Сервисы работают по следующему принципу: код, установленный на страницах сайта, регистрирует посещения и собирает данные о них.


Наиболее популярные счетчики статистики: Яндекс Метрика, Ливинтернет, Гугл.Аналитикс.


..1 Яндекс.Метрика.

Яндекс.Метрика - удобный, бесплатный сервис, доступен для всех желающих с 24 апреля 2009 года.

Основные возможности:


- сбор и актуализация данных (Обновление отчетов происходит каждые 30 секунд, между действиями посетителя на сайте и отражением их в отчетах проходит от 30 секунд до 5 минут)

- управление доступами (предоставление гостевого (только просмотр) и полного доступа к счетчику)

- формирование отчетов

- настройка фильтров (требуется в случае, если необходимо не учитывать какие-то данные, например, все посещения с определенных IP-адресов).

Подробные инструкции по установке счетчика можно узнать

в разделе Помощь (в Яндекс.Метрике)


Основные разделы счетчика:


Посещаемость - общая сводка и конверсии (добавление и анализ целей).

Источники - систематизирование трафика по типу.

Посетители - конкретизирование аудитории.

Содержание - раскрытие структуры сайта в виде дерева, упорядоченного по популярности (по убыванию числа просмотров).

Поведение - вебвизор и карты поведения.

Технологии - сбор данных об устройствах и программном обеспечении, используемые посетителями.

Конструктор - построение отчетов, не присутствующих среди основных, детализация существующих отчетов.

Звонки - учет звонков из разных источников.

Мониторинг - нагрузка сайта, трафик по минутам, результаты.

Острова - анализ функционирования островов.


На главной странице счетчика размещена сводка общих данных о посещаемости. Используя «Каталог виджетов», есть возможность настройки данной страницы для себя.

В общих случаях, отчеты содержат период, который можно настраивать, таблицу с данными и график, а также можно выгрузить данные в нескольких форматах.

Отчет «Посещаемость» включает в себя данные о количестве визитов, просмотров, посетителей и новых пользователей, о проценте отказов, глубине просмотра и времени на сайте.

В Отчете «Конверсии можно посмотреть результаты достижения каждой цели, которые были предварительно настроены.

Группа «Источники» содержит несколько отчетов: общую сводку; сайты, c которых пришли посетители; процент поискового трафика; эффективность контекстных и баннерных рекламных кампаний; поисковые фразы, по которым были переходы на сайт.

В данной группе «Источники» есть специальный раздел для анализа результатов по контекстной рекламе в Яндекс.Директе. Для этого Аккаунт в Директе должен совпадать с аккаунтом Метрики. Специальные метки необходимо использовать для оценки эффективности кампании в других системах, к примеру, Google AdWords.

Группа отчетов «Посетители» уточняет информацию о пришедшей на сайт аудитории: пол, возраст посетителей принадлежность к региону, активность в определенное время суток.

Отчеты группы «Содержание» включают информацию по определенным страницам сайта. Кроме стандартных отчетов о популярных страницах, страницах входа и выхода, здесь содержится отчет по заголовкам страниц.

Если в настройках счетчика подключена функция «Внешние ссылки и загрузка файлов», а на сайте установлена панель социальных кнопок, то в отчете «Кнопка «Поделиться» будет представлена статистика, позволяющая оценить интерес пользователей к текстам сайта. Кроме того, в отчете «Внешние ссылки» представлена важная информация: по каким внешним ссылкам пользователь уходит с сайта.

В отчете «Загрузки файлов» можно найти данные о скачивании различных документов с сайта.

В Яндекс.Метрике можно создать персонализированный отчет по определенным действиям пользователей на сайте. Для этого в код счетчика потребуетсявнести изменения. Интернет-магазины могут воспользоваться также особым функционалом, который позволяет получать детализированную информацию о каждом заказе с сайта.

Все действия пользователя на сайте можно посмотреть в отчете «Поведение»: карта путей по сайту, карта ссылок, карта кликов, Вебвизор, Аналитика форм.

Отчет «Карта путей по сайту» наглядно показывает основные пути перемещения посетителей по сайту. Карта путей по сайту — это интерактивный граф, где вершинами являются страницы и разделы сайта, а ребрами — пути пользователей. Можно настроить фильтр по различным источникам: переходы с поисковых систем, рекламные переходы, прямые заходы и т.д.

Отчет «Карта ссылок» накладывается на анализируемую страницу сайта. В легенде карты (внизу страницы) можно прочитать расшифровку цвета и указать период для анализа ссылок. Если необходимо подсчитать количество переходов по ссылкам на сайте, то в легенде нужно включить опцию «Выделить блок», и при наведении на любую ссылку вы сможете получить нужную информацию. ...




Все права на текст принадлежат автору: Поля Блю.
Это короткий фрагмент для ознакомления с книгой.
SEO для ЧайниковПоля Блю