140 знаков грядущего

Фото: AP

Американский ученый утверждает, что научился предсказывать будущее по твиттеру

Станислав Наранович

20 февраля, 2014 09:19

9 мин

Молодой статистик и информатик Натан Каллус из Массачусетского технологического института (MIT), специализирующийся на анализе больших данных, разработал модель, предсказывающую поведение толпы на основе твитов, пишет университетское издание MIT Technology Review. Результаты его исследования «Предсказывание поведения толпы на основе публичных больших данных» опубликованны на сайте библиотеки Корнелльского университета 10 февраля.

«Благодаря широкому распространению публичной информации в сети сегодня возможны более глубокие инсайты в действия толпы, (…) массовые протесты и киберактивизм. Мы представляем наши усилия по предсказанию появления, конкретных сроков и места подобных событий до того, как они произошли, на основе публичных данных из 300 тысяч открытых сетевых источников на семи языках со всего мира — от новостных сайтов и правительственных публикаций до блогов и социальных медиа. Работая с естественным языком, мы извлекали из контента информацию о типе события, участии в нем тех или иных социальных агентов, их роли и отношении к ситуации, и временных рамках обсуждаемого события. Особенно показательны утверждения о будущем, сделанные в твиттере. В частности, мы рассмотрели кейс египетского государственного переворота в 2013 году.

Исследование подтверждает и квантифицирует общее представление о том, что данные социальных медиа могут служить для предсказания больших событий», —

говорится в превью работы.

Сама работа содержит, во-первых, классификацию «прогностических сигналов» в Интернете, на основе которых делаются выводы о будущем, а во-вторых, — принципы извлечения из больших данных детальной информации о событиях.

Публикация пестрит размашистыми формулами, графиками и изложением способов применения теоремы Байеса к большим данным.

В практической части описаны ретроспективные предсказания конкретных случаев: гражданских протестов в 18 странах мира в 2011—2013 годах, отдельно — волнений в 37 городах, а также кибератак хакерских группировок Anonymous и LulzSec.

Учитывая, что пользователи твиттера склонны публично координировать свои планы в соцсети, нетрудно представить, как из сообщений пользователей можно вывести будущее поведение толпы. Предсказание является просто вопросом отбора большого массива соответствующих сообщений из общего потока информации.

Отправной точкой исследования Каллуса стала попытка отделить по-настоящему массовые протесты от незначительных. Он ориентировался только на те случаи гражданской мобилизации, которые получали более широкое освещение в традиционных СМИ, чем обычно. После этого ученый анализировал сообщения в твиттере, которые предшествовали этим протестам. Сначала фиксировались твиты с упоминанием грядущей протестной активности, а затем анализировались все тренды социальной сети, связанные с этими событиями.

«Собрание людей, объединенных общей целью, можно определить через тренды, заранее проявляющиеся в этих данных», — цитирует исследователя портал MIT Technology Review.

Подобный вид анализа проводит компания Recorded Future в Кэмбридже, специализирующаяся на предсказании будущего на основе открытых источников в Интернете — СМИ, блогов, соцсетей, финансовых баз данных и правительственных ресурсов. Всего компания мониторит около 300 тысяч веб-ресурсов. Для предприятий Recorded Future оценивает финансовые риски на рынке, для правительственных агентств — анализирует большие данные в целях национальной безопасности, фактически выполняя роль частного Агентства национальной безопасности. Как говорится на сайте организации, ее аналитики готовы ответить на вопрос, «что произойдет в Багдаде на следующей неделе». Благодаря сбору данных (data mining) сотрудники фирмы могут предсказывать и массовые протесты, утверждает Каллус, настаивая, что

«большая часть общедоступной информации в онлайне имеет предсказательную силу для поведения толпы».

В своем исследовании он отдельно сосредоточил внимание на антиисламистских протестах в Египте в июне 2013 года, которые закончились свержением президента Мохаммеда Мурси. По словам ученого, свидетельства грядущих волнений были четко видны в твиттере задолго до 30 июня — даты многомиллионной демонстрации в Каире. Более того, основываясь на твитах египтян, уже тогда можно было быть уверенным, что гражданская мобилизация не ограничится одним днем, а растянется на несколько недель, утверждает исследователь.

Натан Каллус. Фото: nathankallus.com

Издание MIT Technology Review, отдавая должное «интересному статистическому анализу» Каллуса, отмечает, что по существу он всего лишь ретроспективно обнаружил данные от июня 2013 года, неопровержимо свидетельствовавшие о назревающей в Египте революции, которая и разразилась в следующем месяце. Увы, этим никого не удивишь: в любые времена, даже до появления больших данных, не было недостатка в исследователях, которые, используя исторические данные, задним числом «предсказывают» свершившиеся события. Но способна ли модель Каллуса действительно оперативно предсказывать события до их наступления? К такой возможности издание отнеслось скептически и сформулировало несколько антитезисов к исследованию.

Во-первых, несмотря на то, что действительно можно обнаружить корреляцию между сообщения в твиттере и реальными протестами, для удачного прогноза следует исключать ложноположительное соотношение:

в соцсети действительно может быть полно твитов и трендов о революции, однако при этом на улицах ей может и не пахнуть.

Анализ больших данных неспособен различить эти два вида трендов.

Во-вторых, не все твиты заслуживают доверия. Когда речь идет о событиях национального масштаба, как, например, массовые протесты, значительную роль в информационном пространстве играют пропаганда и ложные слухи, распространяемые как государством, так и активистами. Это тоже вносит погрешность в получаемые результаты и уменьшает прогностическую силу данных из соцсетей.

В-третьих, этот анализ ничего не говорит о том, насколько контингент твиттера представляет намерения и активность населения в целом.

Пользователи твиттера могут адекватно выражать настроения молодежи, но далеко не всего «молчаливого большинства» граждан.

В конечном итоге, заключает MIT Technology Review, необходимо эмпирическое доказательство, что данные твиттера могут быть использованы для реальных предсказаний о будущем, а не только ретроспективных предсказаний о прошлом. До тех пор прогностическая сила социальных медиа остается чистой спекуляцией.

Догадка о том, что социальные медиа способны предсказывать будущее, имеет свою долгую и противоречивую историю. В последние несколько лет разные исследователи утверждали, что с помощью Интернета они в состоянии предсказать все — от исхода выборов до движений фондового рынка и распространения новостей.

Так, в 2010 году группа исследователей из HP Labs опубликовала работу с провокационном заголовком «Предсказание будущего с помощью социальных медиа». В частности, они заявляли, что на основе твитов могут предсказать кассовые сборы новых кинофильмов. Спустя два года эту публикацию раскритиковал специалист по компьютерным сетям из Принстонского университета Феликс Мин Фай Вон, указавший, что мнение пользователей твиттера не дает адекватной картины отношения зрителей к кинопремьере. Он заключил, что микроблогеры гораздо чаще пишут положительные отзывы, чем негативные, а в целом мониторинг твиттера не настолько продуктивен, как просмотр пользовательских комментариев на специализированных сайтах вроде Internet Movie Database и RottenTomatoes.

Профессор университета Овьедо в Испании Дэниел Гайо-Авелло развенчал миф, согласно которому на основе твитов можно предсказать результаты выборов, изучив несколько научных публикаций, утверждавших обратное. По его словам,

для предсказания итогов голосования мнение респондентов должно быть искренним, тогда как политические обсуждения в твиттере переполнены юмором, пропагандой и слухами.

Кроме того, пользователи социальных медиа не являются репрезентативной группой и не отражают настроение электората в целом.

Впрочем, несмотря на критику, работы о прогностической силе социальных медиа в самых разных областях человеческой жизни продолжают появляться. Буквально на днях исследовательская группа американской корпорации Microsoft из подразделения Microsoft Research предположила, что на основе твитов беременной женщины за несколько недель до родов можно заключить, будет ли она страдать от постнатальной депрессии.

ТЕГИ

поддержать проект

Для поднятия хорошего настроения, вы можете угостить наших редакторов чашечкой кофе

Маленькая чашка кофе