Веб-аналитика:
выбор инструментов статистики

Перечень основных средств анализа статистики сайта, а также обзор преимуществ и недостатков наиболее распространенных категорий статистических отчетов. Статья предназначена для маркетологов и руководителей компаниий, впервые столкнувшихся с потребностью продвижения товаров и услуг в Интернете.

Читать дальше об инструментах статистики »

Веб-аналитика:
счетчики и рейтинги


Счётчик (англ. counter, webrating) — сервис, предназначенный для внешнего независимого измерения посещаемости сайтов.

Обычно счётчик состоит из двух частей: код, который размещается на страницах сайтов-участников для сбора данных и движок, который подсчитывает полученную информацию и предоставляет её в виде статистического отчёта

Читать дальше о счетчиках-рейтингах »

Веб-аналитика:
Google Analytics


Эта служба позволяет оценить трафик на веб-сайт и эффективность различных маркетинговых мероприятий. Мощные, гибкие и очень простые в использовании функции гарантируют невероятное удобство просмотра и анализа данных по трафику.

Читать дальше о сис-ме интернет-аналитики (интернет-статистики) Google Analytics »

 
Веб-аналитика

Анализ и интерпретация лог-файлов

Лог-файл

Лог-файл (или просто лог) - это главный источник информации о поведении посетителя на вашем Web-сайте. Каждое обращение к сайту фиксируется сервером и о нем остается запись в лог-файле. По этим записям можно узнать огромное количество информации о посетителях. Лог-файл сервера представляет собой текстовый файл, в котором в особом формате записаны все данные об обращениях к сайту.

Формат лог-файлов

Лог-файлы серверов Apache имеют формат Common Log Format (CLF). При этом каждая строка является записью отдельного запроса, состоящего из нескольких полей, разделенных пробелами.

События, происходящие при обращении пользователя к сайту

Событие 1. Запрос страницы

Браузер посетителя передает на сервер (на котором находится сайт) запрос на выдачу страницы. При этом на сервере становится известной следующая информация:

  • IP-адрес посетителя
  • Запрашиваемый URL
  • Дата и время запроса
  • Географическое положение клиента
  • Используемый пользователем браузер
  • Адрес страницы, с которой зашел посетитель и т.д.
  • Используемая операционная система и проч.

Событие 2. Выдача страницы

Сервер возвращает клиенту запрошенный документ (страницу, картинку, файл и пр.).

Событие 3. Запись в лог

Сервер записывает данные о произошедшей транзакции в журнал событий (лог-файл).

Пример записей в лог-файле.

213.180.195.231 - - [29/Jan/2007:00:07:17 +0000] "GET /excel/lsn015.html HTTP/1.1" 200 18918 "-" "YaDirectBot/1.0"

74.6.71.37 - - [29/Jan/2007:00:13:03 +0000] "GET /eralash HTTP/1.0" 301 317 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

74.6.71.37 - - [29/Jan/2007:00:13:06 +0000] "GET /eralash/ HTTP/1.0" 200 12234 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

213.186.116.166 - - [29/Jan/2007:00:26:51 +0000] "GET /eralash/soft/speed.zip HTTP/1.0" 200 217872 "-" "Wget/1.10.2 (Red Hat modified)"

213.180.207.25 - - [29/Jan/2007:00:27:14 +0000] "GET /robots.txt HTTP/1.1" 200 54 "-" "Yandex/1.01.001 (compatible; Win16; I)"

Лог-файлы представляют собой сырые данные, которые необходимо обработать. Качество обработки и определяет качество статистики.

В лог-файлах сайта содержится вся необходимая информация, которой вполне достаточно, чтобы знать все об аудитории, которая посещает сайт.

Следует иметь ввиду, что абсолютно "реальную" статистику получить практически невозможно, в силу ряда технических причин. Не существует каких-то корректных способов оценить величину отклонения "реальности" от измеренных характеристик, однако принято считать, что эти отклонения в среднем не превышают 5-10%. Если сайт живет "размеренной жизнью" (не проводятся активные рекламные кампании и проч.), то можно считать ошибку измерения постоянной и успешно сравнивать между собой данные по соседним дням, неделям и месяцам.

Существуют специализированные программы для работы с лог-файлами - это, так называемые, анализаторы лог-файлов. Наиболее известные - Analog, Webalizer, Webtrends, NetPromoter, WebAnalizer.

Как прочесть и интерпретировать записи лог-файла веб сайта

Например, запись в лог-файле

78.123.67.3 - - [21/Jul/2009:01:01:34 +0400] "GET http://<адрес_ресурса>/news.xml" 304 0 "http://<адрес_ресурса>" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; .NET CLR 3.5.30729; OfficeLiveConnector.1.4; OfficeLivePatch.1.3; .NET CLR 3.0.30729)" 127.0.0.1

означает, что 21 июля 2009 г. в 01:01:34 (по местному времени хостинг-провайдера) с ip-адреса 78.123.67.3 к RSS-ленте news.xml сайта http://<адрес_ресурса> обращался встроенный RSS-ридер браузера Internet Explorer 8 (при этом, операционная система – Windows Vista). Код 304 означает, что записей о новых веб-страницах сайта http://<адрес_ресурса> в RSS-ленте не появилось, поэтому браузер не загружал файл news.xml (о чем красноречиво свидетельствует 0).

Число уникальных ip адресов - количество уникальных обращений к серверу.

Число посетителей - людей, запросивших какую-либо информацию с сайта. К информационным файлам относятся все html страницы (с различными расширениями htm, html, asp и т.д.), а также файлы с данными (exe, zip и т.д.). Картинки и элементы оформления к таким ресурсам не относятся.

Просмотры страниц (Impressum Page)- суммарное число загрузок html страниц сайта.

Заходы с поисковых систем. Учитывается по каким словам и фразам посетитель зашёл на сайт. Обычно такие данные представлены отдельным отчётом, как вцелом, так и по каждой поисковой машине.

Статистика рефереров. Реферер, или ссылающийся ресурс, показывает откуда посетитель пришел на ваш сайт.

География. При каждом обращении к серверу в лог-файле остается запись, содержащая ip-адрес этого обращения. Анализируя ip можно определить страну запроса.

Точки входа

Точки выхода

Наиболее частые пути по сайту

Визиты поисковых роботов. Как известно, прежде чем попасть в выдачу поисковой системы, сайт должен быть проиндексирован и добавлен в базу поисковой системы. Это работой занимаются поисковые роботы - ищут новые страницы, отсутствующие в индексе, и обновляют информацию об уже известных. В данном отчете вы можете видеть информацию о посещениях поисковыми роботами вашего сайта.

Трафик - какой трафик сгенерировала данная страница.

Как правило, на каждом сайте устанавливается внешний бесплатный (реже – платный) счетчик. Ресурс, предоставивший счетчик, ведет расширенную статистику посещения ресурса (включая всю вышеуказанную информацию), с которой можно ознакомиться в любое время. Особенно с такими счетчиками удобно работать тем, кто размещает свои сайты на бесплатном хостинге.

Большинство хостинг-провайдеров (хостеров) платного хостинга предоставляют своим клиентам возможность использовать уже установленные средства анализа. Например, для серверов Apache часто используется программа Webalizer, которая устанавливается в качестве дополнительного модуля веб-сервера.

Анализ лог-файлов сайта

Всесторонний анализ логов сайта помогает понять, как используется сайт и каково направление его дальнейшего развития.

Что можно выяснить, анализируя логи веб-сайта

Посещаемость. Конечно, этот показатель отражает и простой счетчик, устанавливаемый на каждой странице, но лог-файлы позволяют анализировать посещаемость более детально, например, по месяцам (Monthly Statistics), по дням (Daily Statistics), по часам (Hourly Statistics). Этот показатель позволяет выявлять часы всплеска посещаемости (пики посещаемости) и часы затишья, что очень важно знать при обслуживании сайта.

Трафик – суммарный и отдельно по страницам.

Уровень конверсии. Показывает, как посетители перемещаются по сайту, то есть смотрят ли они одну страницу или несколько. Уровень конверсии позволяет косвенно оценивать качество сайта.

Точки входа (Entry, Entry Pages) – это веб-страницы, с которых пользователи начинают работу с сайтом. Это очень ценная информация! Например, если 80% посетителей не «видят» главную страницу вашего сайта, есть ли смысл тратить время и средства для ее украшения и улучшения? Кроме того, точки входа показывают наиболее значимые страницы вашего сайта. Точки входа, как правило, соответствуют наиболее популярным страницам сайта.

Точки выхода (Exit, Exit Pages) – это веб-страницы, с которых пользователи покидают ваш сайт. Позволяют анализировать ситуацию: хорошо, если пользователь нашел то, что искал и потому уходит (довольный!), а если нет? Есть повод задуматься!

«Заброшенные» страницы – это веб-страницы, посещаемые очень-очень редко. Требуется тщательный анализ ситуации: может быть, страницы неинтересны или их трудно отыскать на вашем сайте (например, они не указаны на карте сайта или не связаны ссылками с другими страницами сайта).

Популярные страницы (URLs) – это веб-страницы, посещаемые наиболее часто. Можно использовать их как образец при создании других страниц сайта. Можно также направлять пользователей с этих страниц к другим, менее популярным или «заброшенным» страницам.

Поисковики (Searches). Показывает, с каких поисковиков пришло больше всего посетителей.

Поисковые запросы, приводящие на сайт (Search String). Этот показатель демонстрирует эффективность используемых вами названий веб-страниц, метатегов, ключевых слов…

Рефереры (Referrers) – ссылающиеся на сайт ресурсы.

География посетителей. Показывает из каких стран приходят посетители на сайт.

Информация о посетителях: IP-адрес посетителя, используемые браузер и операционная система и т.д.

• …

Что такое лог-файлы сайта и зачем их нужно анализировать?

Программы для анализа лог-файлов сайта

Лог сайта – это текстовый файл, поэтому можно работать с ним, открыв вручную в текстовом редакторе. Однако просматривать логи вручную – весьма утомительно, так как лог-файлы очень объемные: например, если сайт посещают около 6 тыс. посетителей ежедневно, которые просматривают около 10 тыс. страниц, то объем лог-файла за день составляет св. 9МБ!

Для работы с лог-файлами предназначены специальные программы – анализаторы лог-файлов. Например, Analog, AWStats, loganalyzer, NetPromoter, Webalizer, WebAnalizer, WebHound, Webtrends и др.

***

Примечания

1. По подсчетам исследовательской компании Netcraft, в июне 2009 г. в Интернете насчитывалось 238 027 855 сайтов. При этом доля веб-серверов Apache составила около 47%, Microsoft IIS – 24,80%, qq,com – 12,79%, Google – 4,98%, nginx – 3,69%, Sun – 0,30%.