Читать книгу "Искусственный интеллект - Мередит Бруссард"
Шрифт:
Интервал:
Закладка:
Подобное расхождение источников относительно определения феномена – редкость. Например, в определении слова «собака» вполне сходится множество источников. В то же время «машинное обучение» – достаточно новый феномен, потому неудивительно, что пока не сложилось его общепринятое определение и лингвистика до него еще не добралась.
Том М. Митчелл, профессор кафедры машинного обучения в Школе компьютерных наук Университета Карнеги – Меллона, предлагает неплохое определение машинного обучения в книге «Наука машинного обучения» (The Discipline of Machine Learning). Он пишет: «Мы считаем, что машина обучается с учетом конкретной задачи Т, системы оценки эффективности Р для конкретной задачи, основываясь на опыте Е. В зависимости от того, как мы определяем Т, Р, и Е, задачу обучения можно назвать добычей данных, автономными исследованиями, обновлением базы данных, программированием на основе примеров и т. д.»[82]. Это определение кажется мне подходящим потому, что Митчелл использует конкретные термины для определения феномена обучения. «Обучение» машины вовсе не означает, что у нее есть металлические «мозги». Это значит, что в выполнении конкретной задачи она стала точнее – в соответствии с метрикой, определенной человеком.
Для такого обучения не нужен интеллект. Программист и консультант Джордж М. Невилл-Нил пишет в журнале Communications of the ACM:
Мы – свидетели более чем 50-летнего сражения человека и машины в шахматы, но означает ли это, что у компьютеров появился разум? Нет, и тому есть две причины. Первая заключается в том, что шахматы не призваны проверять наличие разума; в рамках этой игры исследуется определенный навык – умение играть в шахматы. Если бы я мог обыграть гроссмейстера, но при этом не был бы способен передать вам за столом соль, обладаю ли я разумом? Вторая причина заключается в том, что уверенность, будто игрой в шахматы можно проверить интеллектуальные способности, является культурным заблуждением, согласно которому игроки в шахматы – в отличие от остальных людей – гениальны[83].
Существует три ключевых типа машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением. Привожу определения для каждого типа, предлагаемые в известной книге под названием «Искусственный интеллект: Современный подход» (Artificial Intelligence: A Modern Approach), написанной профессором Калифорнийского университета в Беркли Стюартом Расселом и директором исследовательского отдела Google Питером Норвигом:
Обучение с учителем: компьютеру представляют пример входных данных и желаемый итог их обработки, то есть дают задание, задача программы состоит в том, чтобы изучить основные закономерности, стоящие за решением.
Обучение без учителя: программе не дают никаких итоговых результатов, предоставляя возможность самостоятельно выявить структуру входных данных. Обучение без учителя может быть как самоцелью (выявить неявные закономерности в данных), так и ступенью в обучении.
Обучение с подкреплением: компьютерная программа с определенной задачей взаимодействует с динамичной средой (целью может быть управление транспортным средством или победа в игре). По мере продвижения в пространстве задач программе представляется обратная связь – награда или наказание[84].
Обучение с учителем – наиболее простой вариант: машине предоставляется набор обучающих данных и соответствующие ему ожидаемые результаты. По сути, мы говорим машине, что хотим от нее в итоге, затем настраиваем модель до тех пор, пока не получим то, что полагаем верным.
Все три типа машинного обучения зависят от набора обучающих данных, необходимого для использования и подстройки модели обучения. Предположим, мой массив состоит из данных 100 000 владельцев кредитных карт. Он содержит все то, что кредитная компания знает о клиентах: имя, возраст, адрес, кредитную оценку заемщика, кредитную ставку, состояние счета, имена всех подписантов договора, выписку со счета, выписку времени и сумм погашения кредита. Допустим, с помощью нашей модели машинного обучения мы хотим предсказать, кто с большей вероятностью просрочит очередной платеж. Это нужно сделать потому, что после каждого просроченного платежа повышается процентная ставка по кредиту. В массиве обучающих данных есть колонка, где обозначены те, кто задерживал платеж. Мы делим наш массив на две части по 50 000 аккаунтов в каждом – на обучающую и тестовую выборки. Затем запускаем алгоритм машинного обучения на первом наборе, чтобы выстроить модель, черный ящик, который предскажет то, что мы и так знаем. Мы можем применить эту же модель к оставшимся данным и получить прогнозы о том, кто вероятнее всего опоздает с платежом. Наконец, мы сравниваем полученные прогнозы с реальными данными о просроченных платежах. Это позволяет выявить точность прогностической модели. И, если мы как разработчики нашей модели машинного обучения решим, что она достаточно точна, мы можем применить ее к прогнозированию платежей реальных заемщиков.
Существует ряд алгоритмов машинного обучения, доступных для применения к наборам данных. Возможно, вы уже слышали такие названия, как «метод лесов случайных деревьев», «древо решений», «метод ближайших соседей», «наивный байесовский классификатор» или «скрытая марковская модель». Прекрасное объяснение этих методов обнаруживается в книге Кэти О’Нил «Убийственные большие данные» (Weapons of Math Destruction)[85]. О’Нил пишет, что мы постоянно и бессознательно выстраиваем модели. Когда я решаю, что приготовить на ужин, я конструирую модель: что осталось в холодильнике, какие блюда я могу из этого приготовить, кто будет ужинать вместе со мной (обычно мы ужинаем с мужем и сыном) и что они любят есть. Я оцениваю каждое блюдо и вспоминаю, как его оценили в прошлом – какое блюдо и у кого заслужило просьбы о добавке и какие ингредиенты находятся в списке отвергаемой пищи: кешью, замороженные овощи, кокос, мясные субпродукты. Принимая решения об ужине на основе того, что у меня есть в холодильнике, я оптимизирую варианты. Создание модели на языке математики предполагает формализацию свойств и вариантов выбора[86].
Скажем, я хочу заняться машинным обучением. Первым делом мне нужен массив данных. Для отработки моделей машинного обучения доступно множество интересных массивов, собранных в онлайн-хранилищах. Есть массивы выражений лиц, домашних животных и видео YouTube. Есть массивы электронных писем, отправленных людьми, работавшими в обанкротившейся компании (Enron), конференций 1990-х гг. (Usenet), массивы сетей онлайн-дружбы из социальных сетей (Friendster), массивы данных о фильмах, просмотренных на различных сервисах (Netflix), данные произнесения общеупотребимых фраз с разными акцентами и массивы неразборчивых почерков. Эти данные собирались корпорациями, сайтами, университетскими учеными, добровольцами и из архивов ныне закрытых компаний. Эти небольшие характерные массивы данных опубликованы онлайн, и именно они формируют каркас современного ИИ. Вы наверняка можете найти там и свои данные. Моя подруга однажды обнаружила себя в видео в ясельном возрасте в архиве бихевиористов: ее мать участвовала в исследовании взаимодействия родителей и детей. Для построения умозаключений о мире исследователи до сих пор обращаются к тому видео.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Искусственный интеллект - Мередит Бруссард», после закрытия браузера.