Главная » Полезные статьи » Продвижение сайтов » Анализатор поисковых машин
Распечатать статью

Анализатор поисковых машин

Сбор данных

Ежедневно производится сбор результатов Топ10 поиска по реперному набору запросов от двух поисковых машин. Это Яндекс и Google. Сбор данных запускается в 7:00 по московскому времени. В 10:00 происходит повторный опрос поисковиков для запросов, на которые не был получен ответ в первую итерацию. Все расчеты производятся в то же время, что и сбор данных. Таким образом, результаты работы анализаторов “за сегодня” становятся доступны около 8:00 по московскому времени и уточняются около 10:15 по московскому времени.

Для всех запросов сохраняются и обрабатываются первые 10 позиций из результатов поиска (позиция, URL, заголовок страницы, цитата). скачать бесплатно рейтинговые игры на psp

——————————

Анализатор качества навигационного поиска

Навигационным называется запрос, с помощью которого пользователь ищет определенный сайт. Таковы, например, запросы <сбербанк>, <комсомольская правда>, <рамблер>, <газета ру> и т.п.

Лучшим результатом в ответ на навигационный запрос является искомый сайт (маркер) на первой позиции поисковой выдачи.

Для оценки качества навигационного поиска производится опрос поисковиков по 200 запросам, случайно выбираемым из общего массива навигационных запросов. Каждому запросу приписан один или несколько сайтов-маркеров. В Топ10 поисковой выдачи ищутся вхождения сайтов-маркеров. Если для запроса сайтов-маркеров задано несколько — учитывается вхождение любого из них на верхней позиции. Далее расчитывается доля запросов, для которых на первой странице найден сайт-маркер. Это и является сводным показателем качества навигационного поиска.

Лучшим считается поисковик с наибольшим сводным показателем по заданному анализатору. Именно в таком порядке поисковики отсортированы в информере данного анализатора.

В дальнейшем предполагается изменение методики вычисления качества навигационного поиска по двум пунктам: а) сбор данных будет производиться не по одним и тем же 281 запросу каждый день, а по случайной выборке из 281 запроса, выбираемой из большого массива запросов и б) будет введен учет позиции, но которой найден сайт-маркер (сейчас вхождение на первой и на девятой позиции учитываются одинаково)
2008-11-11

yandex 96.0
google 96.0

——————————

Анализатор качества тематического поиска

Человек лучше машины может понять смысл поискового запроса, предположить, какую информацию хотел бы получить пользователь, оценить предложение информации в Сети и сформировать выдачу в ответ на запрос. Поэтому выдача, сформированная экспертом всегда лучше алгоритмической.

Анализатор сравнения алгоритмической выдачи с экспертной ежедневно мониторит результаты поиска по ряду запросов, ссылки в ответ на которые подобраны экспертами. И сравнивает, сколько предложенных экспертами сайтов смогла найти каждая поисковая машина. Подсчитывается процент приближения алгоритмической выдачи к экспертной для всех запросов.

В качестве экспертного мнения используется результаты выдачи экспертной системы Нейрон. Сводным показателем данного анализатора является доля результатов поисковой выдачи, совпавших с мнением экспертов, без учета позиции “совпавшего” сайта.

Лучшим считается поисковик с наибольшим значение сводного показателя. Именно в таком порядке поисковики отсортированы в информере данного анализатора.

В настоящий момент производится сбор данных по 18-ти запросам. Количество запросов будет увеличиваться.
2008-11-11

yandex 23.0
google 19.4

——————————

Анализатор качества подсказок

Большинство поисковых машин, заподозрив при вводе поискового запроса опечатку, пытаются предложить пользователю правильное (по мнению поисковика) написание запроса. Качество подсказок является важным дополнением к общему качеству поиска. В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит “правильную” форму запроса.

Оценка производится по тем же группам запросов с опечатками что и в анализаторе устойчивости к опечаткам. Чем больше правильных подсказок было дано, тем выше показатель данного поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
2008-11-11

yandex 90.9
google 84.9

——————————

Анализатор качества поиска цитат

Цитатный поиск — это поиск конкретного текста по его известному фрагменту. Часто таким образом ищутся оригиналы литературных произведений. Качественный поисковик должен выдавать ссылку на страницу, где содержится текст произведения, цитата из которого запрашивается. И в идеале — поставить ее первой. Например, давая запрос “Однажды в студеную зимнюю пору я из лесу вышел” , пользователь скорее всего ищет текст стихотворения Некрасова, и ссылку именно на этот текст поисковик должен выдать на первой странице.

Как правило, цитатные запросы длиннее других типов и не часто повторяются, но в сумме составляют значительную долю запросов.

Для оценки качества цитатного поиска производится опрос поисковиков по 50 запросам, случайно выбираемым из общего массива цитатных запросов. Каждому запросу приписан один или несколько фрагментов текста, которые должны быть включены в текст страниц , на которые ссылкается поисковая выдача. В Топ10 поисковой выдачи ищутся вхождения фрагментов-маркеров. Далее расчитывается доля запросов, для которых на первой странице найден фрагмент-маркер. Это и является сводным показателем качества цитатного поиска.
2008-11-11

google 55.6
yandex 48.5

——————————

Анализатор устойчивости к опечаткам

Человек — не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо “запрос” получится “звпрос”), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо “запрос” получится “зпрос” или “заппрос”), наконец, он может не знать правильного написания слова и ввести его “как слышится” (и тогда вместо “яндекс” получится “яндыкс”).

Поисковик в этом случае может придерживаться одной из трех стратегий —
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму — “возможно, вы имели ввиду [правильное написание запроса]”
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму

В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.

В данном анализаторе сравнивается поисковая выдача по “правильному запросу” и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по “правильному” запросу

Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:

1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова “гриби”, которое есть опечатка слова “грибы” к слову “гриб”)
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками

Все эти случаи в рамках данного анализатора дают шум — случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.

Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.

В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
2008-11-11

yandex 53.7
google 11.3

——————————

Анализатор наличия спама в поисковой выдаче

Компания “Ашманов и Партнеры” профессионально занимается изучением феномена поискового спама — приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.

Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.

Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам.

Источник информации о спам-статусе данного URL — собственные данные антиспам-лаборатории компании “Ашманов и Партнеры”. Используются следующие категории поискового спама:

* doorway — безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog — безусловный спам: спамерские каталоги,
* spamcontent — безусловный спам: спамерский заимствованный контент,
* pseudosite — безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog — каталоги,
* board — доски объявлений,
* domainsale — домены на продажу,
* secondary — вторичный, заимствованный контент,
* partner — любые партнерки,
* linksite — сайт линкоподдержки,
* spamforum — заспамленный форум,
* techspam — технический спам,
* searchres — результаты поиска

Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
2008-11-11

yandex 4.0
google 10.5

——————————

Анализатор SEO-прессинга

Многие запросы невозможно понять однозначно. Например, дизайн, автомобили, спорт и др. Такие запросы называются информационными. Лучшим ответом на них является подборка, в которой пользователям предлагаются ссылки на ресурсы по различным смысловым направлениям запроса. Так, в выдаче в ответ на запрос <дизайн> должны быть ссылки на сайты о веб-дизайне, ландшафтном дизайне, дизайне интерьера и др.

Сформировать качественную политематическую подборку ссылок непросто. Особенно в условиях, когда оптимизаторы рассматривают популярные информационные запросы как цели для продвижения сайтов своих клиентов. В результате такого SEO-”прессинга” наверх пробиваются только ресурсы, продвижение которых наиболее окупается, и выдача становится однообразной, состоящей из ссылок на сайты с однотипными коммерческими предложениями.

Анализатор ищет в титульных фразах и сниппетах Тор10 выдачи по анализируемым запросам однотипные строки. Суммарный показатель представляет собой процент найденных однотипных строк от общего количества сайтов в Тор10 выдачи по анализируемым запросам. Чем выше этот показатель — тем более велико SEO-давление на данный поисковик.
В качестве признака монотематичности используется вхождение в заголовок или цитату страницы характерных слов или фраз. Сводным показателем является доля результатов поиска, в которых “фразы-маркеры” встречаются.

Лучшим считается поисковик с наименьшим сводным показателем по данному анализатору. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
2008-11-11

google 51.0
yandex 53.7

——————————

Анализатор апдейтов поисковых машин

Апдейт (от англ. update — гл. обновить информацию) поисковой машины — процесс обновления результатов поиска. Какие-то сайты поднимаются в первую десятку, какие-то <тонут>. Каждый поисковик обладает собственным стилем обновлений, которые хорошо видны на соответствующем анализаторе. Анализатор апдейтов поисковых машин ежедневно мониторит позиции первых десяти ссылок (Тор10) по 140 запросам и сравнивает, для какого количества сайтов позиция изменилась и какова степень этого изменения по сравнению с данными вчерашнего дня.

Расчет сводного индекса апдейта производится следующим образом:
Пример 1
В 1-й день по некоторому запросу Top10 имеет следующий вид:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
Во 2-й день по тому же запросу Top10 выглядит так:
Сн, С1, С2, С3, С4, С5, С6, С7, С8, С9.

Пример 2
В 1-й день по некоторому запросу Top10 имеет следующий вид:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
Во 2-й день по тому же запросу Top10 выглядит так:
Сн1, Сн2, Сн3, Сн4, Сн5, Сн6, Сн7, Сн8, Сн9, Сн10.
Обозначим через N2i порядковый номер во 2-м Top10 i-й по порядку страницы из 1-го Top10.
Если i-й страницы нет во 2-м Top10, то N2i=11.

Индикатор апдейтов вычисляется по формуле:
10

S Abs(i-N2i)/100

i=1

Здесь:

S — обозначение суммы;

Abs — обозначение абсолютной величины числа.

Если N2i=11 (i-я страница из 1-го Top10 не попала во 2-й Top10), то
Abs(i-N2i)=10.

Для двух приведенных выше примеров предлагаемый способ вычисления индикатора апдейтов дает следующие результаты:
Пример 1
((2-1)+(3-2)+(4-3)+(10-9)+10)/100 = 0.19 (19%)
Пример 2
10*10/100 = 1.00 (100%)

Кроме того, вычисляются дополнительные параметры — количество исчезнувших из поисковой выдачи сайтов и количество сайтов, изменивших позицию.

У данного анализатора нет “оценочной” характеристики. Результаты можно трактовать двояко: поисковик с частыми большими апдейтами можно считать более актуальным, часто обновляющим свои данные; поисковик с редкими апдейтами можно считать стабильным и предсказуемым. В информере данного анализатора поисковики отсортированы в порядке увеличения уровня апдейта сверху вниз.
2008-11-11

google 11.0
yandex 12.2

——————————

Анализатор переходов

Анализатор доли переходов с поисковых машин не является “качественным” анализатором, а отражает популярность и используемость поисковых машин. Для его построения используются данные счетчика Liveinternet.ru. Таким образом, учитываются переходы только на те сайты, на которых установлен счетчик Liveinternet.ru.

Данный анализатор отражает процентное соотношение переходов с поисковых машин на сайты Рунета. Используются данные статистики счётчика LiveInternet по переходам с поисковиков. Здесь необходимо сделать несколько поясняющих комментариев:
А. Здесь взят срез статистики счётчика LiveInternet по российским пользователям (то есть пользователям с российским адресом IP). Это сделано, чтобы отфильтровать шум, возникающий из-за так называемых idiot clicks, то есть случайных переходов западных пользователей из “больших” поисковых машин, таких как Гугл, MSN Live Search, Yahoo. Эти пользователи не являются настоящими пользователями поисковиков Рунета, но могут довольно сильно искажать статистику (так как западный Интернет большой и таких случайных пользователей много).
Б. Принято считать эти цифры долями рынка поисковых машин, но это не вполне корректно. Дело в том, что:
а) счётчик LiveInternet показывает переходы только на те сайты, на которых установлен счётчик. Некоторые крупные сайты не ставят счётчик, что может давать смещение статистики при экстраполяции на весь Рунет.
б) точно неизвестно, что именно показывает процент переходов с поисковика, и как он связан с истинной популярностью поисковика. Можно предположить, что посещаемость поисковика и количество переходов с него коррелируют, но это только предположение. Вдруг, например, в “плохом” поисковике пользователь вынужден много раз щёлкнуть по результатом поиска, пока он найдёт нужный сайт, а в “хорошем” он находит нужный сайт с одного клика? Тогда “плохой” поисковик будет генерировать много переходов на одного пользователя, а “хороший” — только один переход. В общем, точно это соотношение популярности и переходов неизвестно, и именно поэтому мы назвали данный параметр техническим.
Вероятно, сильное изменение процентной доли переходов (скажем, на 5-10 пунктов и более) может отражать реальное изменение посещаемости поисковика. Про малые флуктуации (1-2%) этого утверждать наверняка нельзя.
В. Нужно не забывать, что эти цифры — не абсолютная посещаемость или количество переходов, а процентные доли (сумма которых постоянна и равна 100%). Именно это вызывает эффект ясно видимых на месячном графике зеркальных ям Яндекса и наведённых выступов Гугла: посещаемость Яндекса в выходные падает, а посещаемость Гугла, похоже, падает не так сильно (мы не знаем, почему). Поэтому оттого, что доля Яндекса велика, то из-за её падения пропорционально увеличивается процентная доля Гугла по выходным (ведь сумма долей всех поисковиков постоянна). У Рамблера же, очевидно, падение в выходные также ярко выражено, так что его процентная доля не подскакивает так, как у Гугла.

Лучшим по данному анализатору считается поисковик с наибольшей долей переходов. Именно в таком порядке сверху вниз отсортированы поисковики в информере данного анализатора.
2008-11-11

yandex 58.3
google 22.5

Источник: codingrus.ru

Вы можете оставить комментарий, или обратную ссылку на Ваш сайт.

Оставить комментарий

Похожие статьи