Читать книгу "Big Data простым языком - Алексей Благирев"
Шрифт:
Интервал:
Закладка:
Возвращаясь к вопросам регулирования, хочу в первую очередь отметить, что все существующее регулирование не рассматривает, к сожалению, пользователей с точки зрения их жизненного цикла, не учитывает продукты с использованием алгоритмов.
Большинство стран фокусируется на создании базовой инфраструктуры для управления рисками, нежели точного управления регулированием конкретных кейсов, в том числе и те, которые привел я, несмотря на то, что каждому из них уже более пяти лет.
Метаданные
И построил он замок.
Сижу смотрю фильм «Анон»[99], где общество лишено личной жизни и прав. Специальные службы записывают на сервера с терабайтами данных все, что происходит вокруг, используя наше зрение. Внезапно происходит череда загадочных убийств…Главный герой встречается со своим напарником, чтобы исследовать их, и вместе они начинают анализировать метаданные жертв.
В этот момент в моей голове не происходит сбоя, потому что я понимаю, что такое метаданные, и все в фильме выглядит крайне логичным. Но что, если я понятия не имею об этом? Тогда мне подсовывают красивый фантастический фильм по аналогии с «Особым Мнением»[100].
Глаза – это самый высокоскоростной интерфейс, поэтому они находятся на голове. Если бы они были, скажем, на заднице, то сигнал от них доходил был долго, и весь мир воспринимался бы нами с большой задержкой. Герои фильма «Анон» все делают глазами: звонят друг другу, оплачивают покупки, передают файлы того, что видят, идентифицируют себя. Все с помощью глаз.
Samsung представил в 2018 году, умную контактную линзу, которая может совершать эти операции с помощью глаз[101]. Линза проецирует изображение на глаз, позволяя воспринимать контент новым образом. Но также линза содержит и камеру, позволяя записывать видеопоток того, на что смотрит человек.
На протяжении всего фильма бравые парни пытаются отследить цепочку серверов и выследить метаданные.
И вот тут мое сознание дало сбой, потому что я не смог сформировать в голове единую платформу, на которой все живут. Возникла куча вопросов: как так вообще получилось, что всех на нее перевели.
По ряду причин я не сторонник централизованных платформ. Во-первых, делать их очень долго и дорого. Во-вторых, размер риска взлома гораздо выше, так как все находится в одном месте. В-третьих, чтобы управлять таким объемом данных, нужно правильно структурировать их, а это определенные компетенции.
В моем опыте был один проект построения крупного хранилища данных. Мы пытались совместить все ключевые функциональные подразделения организации вместе и получили ситуацию, сложность которой не могли представить.
Представьте себе на минуту, что человек, который работает с большими объемами данных и проектирует сервисы, должен уметь разбираться в том, с чем именно он работает, – риски, продажи, бэк-офис, финансы и отчетность и так далее. По факту, таких людей единицы, поэтому централизованные системы обречены. В какой-то момент с ними никто не сможет разобраться.
В этом заключается интересный парадокс: чем больше люди хотят контролировать и чем больше они тратят ресурсов на централизацию, тем меньше в реальности они контролируют, и тем сложнее становится сама система. Выживут только небольшие управляемые компоненты.
Лазейки, оставляемые архитекторами таких платформ, похожи на небольшие тропинки, по которым идешь будто в потемках. Если мир полон красок, то эти лазейки переносят в пространство, где красок нет, но есть описание, что какие-то материалы применяются. Будто хоббит надел кольцо, и мир преобразился, лишился красок и стал похож, скорее, на чертежи.
Уж не знаю, какие еще аналогии привести, но смысл, думаю, понятен. Речь идет про те самые метаданные. Подложку мира. Описание того, как работает основная сцена.
Изучать эту подложку – это как смотреть на чертежи здания. Либо ты видишь, что архитектура безупречна, либо, что у архитектора руки растут из другого места.
А если таких зданий много, и вы находитесь в большом городе? Вдруг вы хотите открыть свой бизнес по продаже окон. Вам бы прикинуть, сколько окон вы можете продать и кому. Сможете просто взять и посчитать?
Возьмем что-то посложнее, например локомотив. Он состоит из секций, секции состоят из узлов, узлы представляют собой объединение деталей. Вот локомотив приехал на ремонт. Как понять, сколько конкретных болтов в нем нужно заменить в рамках регулярного ремонта? Нужно, чтобы техническая документация имела определенное описание, чтобы это описание можно было использовать и сделать запрос к информационной системе, где оно хранится. Бинго, правильно, используем метаданные.
Метаданные не только нужны для поиска и работы с большими массивами данных. Их еще очень часто используют различные люди и организации для получения доступа к тому, к чему они его легально получать не должны.
Большинство провайдеров сервисов (телекоммуникационные компании, мессенджеры и другие) собирают метаданные о звонках и сообщениях. В случае с iMessage, такие сообщения будут содержать помимо времени звонка еще и данные о номере телефона, IP-адресе и номере адресата, который получил сообщение. Все это хранится в едином логе – истории изменения метаданных. Информация используется и предоставляется третьим лица, если на то есть решение правоохранительных органов.
В фильме «Анон» следователь получал доступ, используя метаданные к архивным файлам людей, и показывал их родственникам или пострадавшим жизнь глазами обвиняемых. И все это через метаданные, которые хранят последовательности с обращениями серверов о том, какие данные там хранятся.
Метаданные чаще всего используются для ведения каталога. Книжки, вещи, запчасти к велосипеду. В общем, если запускать большой бизнес, который будет торговать или что-то предлагать в Интернете, то работа с метаданными – это из ряда must have.
Откуда она такая появилась
В 1965 году одним из первых появился стандарт IPTC-описания фотографий[102] в Ассоциации Новостных Газет Америки. Стандарт включал в файл обязательную информацию – автора, заголовок, дату создания. Когда файл обрабатывали приложения, появившиеся чуть позднее (к примеру, Photoshop), они уже адаптировали этот стандарт, и все изменения сохраняли в файлики с форматом *JPEG, *PNG или *TIFF.
Позднее, в начале 90-х, все это было уже структурировано более изящно и преобразовано в XML, чтобы можно было работать со сложным поиском. Adobe показал миру платформу XMP, которая встраивала мета-информацию в файлы самостоятельно, без участия пользователя в формате, который мог быть воспринят как человеком, так и машиной.
Метаданные стали ключом к поиску. К сложному поиску в больших массивах данных.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Big Data простым языком - Алексей Благирев», после закрытия браузера.