Не верьте интернету

Фото: David Becker / AP

Американские ученые предупреждают о том, что данные о поведении пользователей в социальных сетях зачастую оказываются ложными

Михаил Карпов

28 ноября, 2014 07:50

4 мин

В статье, опубликованной в журнале Science, американские ученые Юрген Пфеффер и Дерек Рутс рассказывают о том, почему онлайновые опросы общественного мнения и изучение публичной активности пользователей в Сети зачастую имеют мало общего с действительностью. По их мнению, специалисты должны либо выработать новые методы проведения таких исследований, либо признать, что данные, полученные с помощью них, нерепрезентативны.

Пфеффер и Рутс указывают на то, что эта проблема стоит чрезвычайно остро, ведь огромное количество научных работ в последнее время строится на так называемых «больших данных», информации получаемой за счет изучения поведения в онлайне крупных групп людей — например, пользователей той или иной социальной сети.

Ученые признают, что интернет представляется для многих специалистов неисчерпаемым источником бесплатной информации. «Люди высказывают свое мнение о том, что происходит в мире, и поиск в социальных сетях позволяет узнать, что они думают о том или ином событии», — пишут авторы статьи. Пфеффер сам указывает на то, что после взрыва на Бостонском марафоне, он собрал 25 млн сопутствующих событию твиттов, не заплатив при этом ни цента, получив данные о реакции людей на это событие.

Но такая информация, зачастую, не представляет общество в целом. Авторы статьи отмечают несколько проблем, связанных с изучением «больших данных».

Прежде всего, они указывают на ошибочность мнения о том, что большое количество пользователей той или иной социальной платформы сгладит особенности ее аудитории. Ученые приводят в пример социальную сеть Instagram, в которой, в основном, представлены молодые люди, возраст которых колеблется от 18 до 29 лет. Помимо узкой возрастной выборки, аудитория этого ресурса по большей части состоит из женщин-афроамериканок, живущих в городах со средним годовым доходом $100 тысяч.

Существуют и определенные проблемы, связанные с программными средствами сбора информации в социальных сетях. Они, чаще всего, являются продуктом компании-владельца ресурса, и исследователи не могут знать, каким образом фирма меняет способ получения данных и фильтрацию выборки.

Ученые отмечают необходимость понимания того, является ли поведение пользователей в свете изучаемой проблемы естественным, или оно обусловлено политикой социальной сети. Известно, что большинство таких платформ старается намеренно изменить поведение своих клиентов с целью завлечь их на определенные страницы или заставить проводить больше времени на сайте. Для этого им специально подбрасываются определенные алгоритмом платформы ссылки или информация.

Рутс и Пфеффер указывают на огромное количество ботов, существующих в социальных сетях и делающих посты автоматически, с помощью заранее заготовленного контента. Существуют аккаунты, которые ведут профессионалы с целью создания искусственной личности в онлайне или даже направленного информационного воздействия на других пользователей ресурса.

Существуют и проблемы с выборкой населения, интересующей пользователя. Например, если ученый хочет получить данные относительно того, за кого будут голосовать студенты Калифорнийского университета, он просто ищет аккаунты, владельцы которых указали, что они в данный момент учатся в этом заведении. Но поскольку пользователи указывают такие данные самостоятельно и их никто не проверяет, существует большая вероятность того, что они окажутся ложными.

Ученые пишут, что часто сами исследователи становятся причиной получения нерепрезентативных данных. Используя ПО, позволяющее делать выборку на основе нескольких критериев, специалист может доиграться с его настройкой, задав такие критерии, результат по которым бы совпадал с его предположениями.

В академической среде обычно принято рассматривать только исследования, принесшие положительный результат. Не видя неудачных работ, невозможно составить точное мнение о том, насколько, к примеру, аудитория Twitter пригодна для прогнозирования результатов выборов, недостаточно только положительных экспериментов, необходимо знать и количество провалившихся, ведь иначе невозможно узнать, были конкретные удачи закономерны или скорее выбивались из общей статистики.

ТЕГИ

поддержать проект

Для поднятия хорошего настроения, вы можете угостить наших редакторов чашечкой кофе

Маленькая чашка кофе