Читать книгу "Big Data простым языком - Алексей Благирев"
Шрифт:
Интервал:
Закладка:
Обучение новым навыкам мы строили на основе практики, потому других источников знаний у нас не было. С одной стороны, это создавало риски, с другой – поощряло свободу к действиям. Сотрудники были как никогда нацелены на результат, а их предыдущий опыт помогал находить нестандартные решения в тех или иных вопросах.
Стоит отметить, что бизнес-лидеры не всегда понимают ценность отдельно взятых решений по работе с метаданными.
Это какая-то малопонятная область работы и применения ресурсов, и не всегда ясно, зачем на это нужно тратить время. Надеюсь, что пример с чертежами зданий и новые фильмы по аналогии с «Аноном» позволяют раскрыть потенциал метаданных. Моделей монетизации таких решений очень мало.
Например, при расчете себестоимости функции работы с данными как сервиса, я использовал исследования Калифорнийского университета, где была приведена модель затрат и ценообразований функции использования данных. В этом отношении я мыслил достаточно просто – нужно было продавать именно данные как сервис, а работу с метаданными сделать обязательным компонентом себестоимости этого сервиса. Сервисная модель работы с данными – относительно новое явления для бизнеса, так как большинство лидеров для тех или иных задач выделяют ресурсы напрямую.
Сервисная модель предоставления данных – это отражения новой идеологии, постепенной захватывающей новые ниши в различных секторах экономики. Эта идеология называется концепцией единого цикла, – конечному клиенту предоставляется не сам продукт, а результаты работы этого продукта как сервис. Можно не покупать автомобиль, а платить за эффективный километр. Так и здесь. Нет смысла продавать сложную инфраструктуру, нужно предложить сервис доступа и получения данных.
Сервисы работы с метаданными можно также выделить в отдельный сервис для поддержки работы и обучения нейронных сетей. С другой стороны, с использованием метаданных можно сделать отличный сервис по получению и сбору данных из различных источников, так называемые краулеры[118] для создания хабов данных. Такие краулеры помогают собирать различные данные из сложно структурированных источников, таких как сайты, сложные файлы, внешние хранилища и другие.
Из метаданных выстраиваются те самые связи, благодаря которым герои фильма «Анон» могли перемещаться между различными источниками данных. Вспоминая этот фильм, я в первую очередь представляю объем работы, которую проделало человечество, чтобы связать источники данных, сделать сложно иерархические структуры, эффективно применяющие алгоритмы быстрого поиска.
Но, с другой стороны, именно метаданные становятся тем самым уязвимым местом в системе, если за ним никто не присматривает. Хакеры могут использовать эти данные для получения незаконного доступа, а проблемы с качеством могут поставить крест на важнейших исследованиях для человечества.
Все так красиво и понятно. Строить здания без чертежей – как бы неправильно, но что же делать со всей существующей инфраструктурой, где место для метаданных могло быть не заложено вовремя в виду тех самых коммуникационных сложностей?
Необходимо искать нестандартные пути и решения, потому что эффективное управление информационным ландшафтом – это ключевой вызов сегодняшнего дня, на который крупному бизнесу еще предстоит ответить.
Зачем нужно качество данных?
Раз вы добрались до этой главы, тяга к новым знаниям дарована вам природой или же воспитана в суровых сибирских условиях.
Тема качества данных лично меня коснулась не сразу. Работая в команде вышколенных аудиторов – выпускников лучших ВУЗов страны, мы привыкли опираться на свое мнение: делать выводы на основании данных, документировать и предоставлять описание своих ключевых суждений, которые ложились в основу аудиторского заключения.
Вот ты приходишь в банк, и тебе дают на руки выгрузку из проводок оборотно-сальдовой ведомости – это такая большая табличка с остатками и оборотами, где находится все на свете. И обычно аудиторы сбивают сначала оборот и остаток по оборотно-сальдовой ведомости с тем, что есть на счетах в отчетности, которую банки публикуют и отправляют в Центральный банк Российской Федерации.
Итак, вот мне сгружают тонну данных – это примерно несколько миллионов записей. В то время Excel еще не умел работать с такими количествами, это уже после он смог анализировать четыре миллиона записей. Приходилось разбирать этот большой объем данных на части.
Каждому аудитору доверяли какую-то конкретную секцию. Если смотреть на финансовую отчетность, то секция – это один ее раздел. Надеюсь, вам удавалось хоть раз на нее взглянуть. Если нет, взгляните для примера на публикуемую отчетность по МСФО[119] любой российской компании или банка, например ВТБ, она, кстати, отличается от остальных тем, что ее составляют в миллиардах рублей. ВТБ был одним из первых банков, которые перешли на выпуск отчетности в миллиардах рублей. Сегодня не так много компаний могут этим похвастаться.
Что это значит в практическом плане? В первую очередь это, конечно же, размер потенциальной ошибки. Раньше у аудиторов была проблема с одной частой ошибкой при подготовке отчетности – с округлением.
Вот представьте, что вы округляете цифры для отчетности так, чтобы это соответствовало принятому размеру внутри самой отчетности – миллиарды, миллионы, тысячи и так далее. Раньше, когда появлялась та самая «единица», которая возникала из-за округления значений строк, аудиторы обычно пристраивали ее в какую-то из строчек так, чтобы общая сумма сходилась. Потому что иначе при сложении сумма расходилась с той суммой, которая была посчитана на более маленьких значениях.
Да и какая разница, в какой строчке баланса будет больше на одну единицу, а в какой меньше. А если дело касается миллиардов? У вас из-за округления появится плавающий миллиард…
Насколько сильно это повлияет на качество конечных данных? Насколько сильно это повлияет на принимаемые решения?
В таком случае аудитор всегда обязан определить ту разницу, которая может и не может одновременно влиять на принимаемые решения на основании выводов из финансовой отчетности. Вы спросите меня как?
Очень просто, есть такое понятие как «материальность» или по-нашему – существенность. Это означает размер потенциального искажения информации, которая может ввести пользователя в заблуждение, из-за которого он сделает неверные выводы, а то и неверные действия на основании некорректных данных.
Насколько материален миллиард? Вот вы смотрите на отчетность, возможно, вы ничего в этом не понимаете, но вам важно, что тут «плавает» миллиард между строк?
А теперь давайте спустимся на уровень ниже, так как это все вершина пирамиды. На самом нижнем уровне данные собираются из разных источников и могут искажаться гораздо существеннее чем на один миллиард рублей.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Big Data простым языком - Алексей Благирев», после закрытия браузера.