Читать книгу "BIG DATA. Вся технология в одной книге - Андреас Вайгенд"
Шрифт:
Интервал:
Закладка:
Теперь посмотрим на социальные данные, которыми обычно располагает инфопереработчик. Представление о том, что человека нельзя идентифицировать по его цифровому следу, рассыпалось в пух и прах после того, как два крупнейших инфопереработчика поделились «обезличенными» социальными данными с учеными. Сначала интернет-провайдер AOL предоставил для исследовательских целей историю поиска 658 000 пользователей за трехмесячный период. Однако по чьей-то оплошности эти данные оказались в сети, и двум журналистам из газеты «Нью-Йорк таймс» удалось установить личности нескольких человек по их поисковым запросам[94]. Это оказалось довольно просто, поскольку люди любят искать информацию о самих себе или своих родственниках или прокладывать маршруты от своего домашнего адреса. Затем интернет-видеосервис Netflix устроил конкурс на самый точный прогноз оценки, которую зритель поставит фильму, на основе анализа предыдущих оценок других пользователей. Для построения алгоритмов участникам нужны были данные, и компания предоставила «100 миллионов оценок, поставленных 480 000 клиентами, с датой каждой оценки»[95]. Имена клиентов не раскрывались, но двум ученым из Университета штата Техас в Остине, Арвинду Нараяну и Виталию Шматикову, удалось деанонимизировать людей из базы данных путем сопоставления обезличенной информации с рецензиями, опубликованными на сайте IMDB.com[96]. В чем, собственно, проблема, если эти рецензии уже были достоянием гласности? А в том, что клиенты Netflix не выкладывают отзывы о всех фильмах, которые смотрят, и некоторые из репертуара «тайно любимых» ими фильмов были весьма показательными. По крайней мере, так утверждала истица, чье имя не разглашается, подавшая на Netflix в суд. У нее возникли опасения, что теперь каждый из 50 000 ученых, получивших доступ к базе данных конкурса, знает, что она лесбиянка.
Даже если вы спокойно отнесетесь к тому, что список просмотренных вами фильмов выложат на всеобщее обозрение, вам вряд ли понравится, если будет обнародована вся история ваших поисковых запросов в интернете. Если вы не отличаетесь от подавляющего большинства людей, то чаще всего вводите в Google Maps свой домашний адрес. Ваше место жительства, посещаемые места, покупки, люди, которыми вы интересуетесь, и проблемы, которые вас беспокоят, относятся к наиболее интимным подробностям жизни. Поисковые запросы отражают и то, что в данный момент волнует общество, и Google предлагает получить представление об этом с помощью обработанной информации на Google Trends. Многие считают, что в Trends преобладают новости, но там можно узнать и о том, что в последние пару лет возрос интерес людей к таким проблемам, как интернет-травля и трансгендер. В то же время поисков по словам «приватность» и «транссексуал» стало меньше[97].
Теперь представьте, что у вас есть возможность видеть чей-то поиск в режиме реального времени. В 1990-х я навещал своего приятеля из Стэнфордского университета, который работал в стартапе в области поисковых систем. Я мог следить за поступающим потоком запросов. Один из них привлек мое внимание: кто-то только что искал «как совершить самоубийство»[98]. Что делать в таком случае? Отследить пользователя по его IP-адресу через сервис-провайдера и позвонить на «горячую линию» предотвращения самоубийств? А не будет ли это вторжением в личную жизнь? Может быть, сначала попробовать внимательно изучить историю поиска этого пользователя, чтобы попробовать понять его мотивацию и более точно оценить вероятность события, которое сразу же приходит в голову при виде такого запроса? А может быть, это писатель, собирающий материал, у которого и в мыслях нет причинить себе вред? Но затем появляется следующий запрос этого человека – «мост Золотые Ворота», где покончили с жизнью более 1600 человек[99]. И после этого вы спокойно отвернетесь от монитора и вернетесь к своей работе по улучшению качества поиска, забыв о том, что человек в опасности? Простого ответа на подобные вопросы не существует.
Схожим образом подробности о вас, а иногда и о ваших близких сообщают ваши покупки в интернете. Чтобы доставить вам заказ, Amazon нужны данные вашей кредитной карточки, в том числе ваши имя и адрес. Сообщить правильный адрес в ваших интересах, иначе посылка до вас не дойдет. В то же время история заказов может вводить в заблуждение, если в ней указаны вещи, которые покупались для кого-то еще. В Amazon можно помечать приобретаемый товар значком «в подарок», и тогда он не будет учитываться в рекомендациях для вас[100]. Алгоритмы обработки данных могут отделять то, что вы указали как покупку не для себя, от всех других ваших заказов. Когда вы покупаете блузку в подарок женщине, то, выбирая размер, сообщаете информацию о ее комплекции. Если это происходит за одну-две недели до Дня матери, а фамилия получательницы совпадает с вашей, алгоритмы Amazon могут сделать вывод о ваших родственных связях. Возможно, что ближе к следующему Дню матери Amazon порадует вас рекомендациями подарков по этому поводу.
Страничка Your Amazon предоставляет пользователям определенную прозрачность и свободу выбора. Возможность просматривать свою первичную информацию, в том числе историю покупок, позволяет контролировать данные, которые становятся основой для выработки персональных рекомендаций. В историю покупок можно включать и вещи, купленные в других местах, причем даже приобретения, сделанные много лет назад. В 2014 году похожий подход был применен в Facebook: «Журнал действий» представляет собой список запросов друзей, лайков, историй и фото с вашими тэгами, приглашений на мероприятия и многого другого. При желании можно удалять из истории отдельные элементы данных. А поскольку ваша цифровая личность в Facebook используется для персонификации рекламы, удаление части данных позволяет влиять на то, какие предложения вам будут присылать[101].
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «BIG DATA. Вся технология в одной книге - Андреас Вайгенд», после закрытия браузера.