Способы и методы машинного обучения

Дата: 2024-01-11 | Время чтения: 8 минут (1525 слов)

Искусственный_интеллект Machine_Learning

В 2023 году трудно представить новостную ленту без понятия «‎машинное обучение». Предполагается, что рынок этой технологии к 2030 году достигнет 225 млрд долларов. Для сравнения — на 2023-й прогнозировался рост до 26 млрд.

То есть Machine learning с нами надолго. Технология будет и дальше внедряться в сферы человеческой жизни: прогнозировать, классифицировать, генерировать объекты. Поэтому важно не отставать и понимать, что такое машинное обучение, как ML появилось, какие методы и способы использует. Об этом расскажем в нашей статье.

Суть машинного обучения

Machine learning (машинное обучение) — направление развития искусственного интеллекта, которое имитирует процессы мышления человека. Здесь не задаётся чёткая последовательность действий, которую, к примеру, выполняет программное обеспечение, а происходит постоянное «размышление», как бы это делал мозг.

Машинное обучение — это прогнозирование на основе огромных объёмов данных, в которых алгоритмы находят закономерности. Понятие связано с нейросетями, которые входят в один из типов ML и работают через глубинное обучение.

Алгоритмы машинного обучения применяются для создания сервисов, которые:

Рекомендуют продукты, услуги и контент, в том числе на основе действий пользователя. К примеру, так работают онлайн-кинотеатры, которые предлагают фильмы и сериалы, исходя из просмотренных
Прогнозируют будущее: возможные тренды, объёмы продаж, заболевания клиентов медклиник по их анамнезу, события и так далее. Модели машинного обучения определяют кредитный рейтинг в банках и предугадывают поведение клиентов, которые, возможно, не смогут выплачивать займ.
Распознают объекты на изображениях и видео, понимают речь и анализируют текст. Это ускоряет рутинные процессы, упрощает работу человека и даже обеспечивает безопасность. Например, определение номеров автомобилей по камерам видеонаблюдения — дополнительный контроль.

Как работает машинное обучение

Определение критериев для отбора и сбор данных. Это огромные объёмы информации.
Подготовка сведений — разграничение их метками, которые важны для распознавания алгоритмами ML нужных элементов. Сейчас разметка проводится специалистами и реже автоматизируется, поэтому процесс этот долгий.
Проверка данных и поиск закономерностей. Здесь находят ошибки, чтобы их исправить и сделать следующий этап наиболее точным.
Выбор модели и начало обучения. Алгоритм обрабатывает данные и выдаёт результаты.
Получение и оценка работы алгоритмов. На этом этапе исправляются ошибки, меняются алгоритмы для дальнейшей работы.

История Machine Learning

XX век

Первые примеры использования машинного обучения встречаются в середине прошлого века. Скопировать нейрон впервые смогли учёные Уолтер Питтс и Уоррен Мак-Каллок ещё в 1943 году. Далее известен секретный проект армии США 1946 года для программного создания таблиц, которые улучшали меткость стрельбы.

Временем расцвета машин лернинг стали 50-е, когда появилась Checkers-playing — программа Джозефа Вейцбаума, Фрэнка Розенблатта и Артура Сэмюэля, которая умела играть в шашки.

В этот же период стала известной модель нейросети (Mark I Perceptron), имитировавшая работу мозга человека, изобрёл её Розенблатт. В конце 50-х появилась SNARC — нейронка, которая выполняла комплексные задачи. Её создателем выступил американец Марвин Минский.

Само понятие «‎машинное обучение»‎ обозначилось только в 1959 году, его озвучили на конференции в колледже Дартмута (США).

Прототип первого виртуального ассистента запустили в 60-х. Это была система ELIZA, которая воспроизводила как бы диалог с психотерапевтом. В это же десятилетие изобрели алгоритм, который умел распознавать и классифицировать данные. А в конце десятилетия Бернард Уидроу и Себастьян Трун создали алгоритм обратного распространения ошибки — это был большой шаг в улучшении работы нейронок.

В 80-е учёные снова использвали технологии для игры. На этот раз — в шахматы. Молодые учёные из университета Карнеги-Меллон придумали систему ChipTest. На основе этой разработки в конце 90-х появился суперкомпьютер Deep Blue, который обыграл знаменитого шахматиста Гарри Каспарова. Это было одно из первых противостояний машины и человека, которое показало силу машинного обучения в прогнозировании действий роботом.

XXI век

В наше время выросла мощность компьютеров и увеличились объёмы данных, что подтолкнуло ML к новой стадии развитии. В 2000-х появилось понятие «глубокое обучение». Начало 2010-х стало эпохой открытия новых проектов по нейросетям, в частности — в гонку вступает Google, и уже в 2012-м — алгоритм от команды Google X Lab научился узнавать котиков на картинках и в видео. Появился также Google Prediction API — сервис для аналитики и работы Machine learning.

Не отставали гиганты Amazon, Microsoft, Facebook*, у которых появились свои платформы, где работали методы машинного обучения. А технология компании Марка Цукерберга DeepFace научилась распознавать лица с высокой точностью.

В 2020-х роль машинного обучения растёт. Технологии уже работают в сферах финансов, здравоохранения, в промышленности, используются в транспорте и будут всё дальше срастаться с повседневной жизнью людей.

Способы машинного обучения

Способ	Описание
Обучение с учителем (Supervised Learning)	Модель тренируют на уже подготовленных данных (размеченных) и готовых ответах. Алгоритм должен выбрать ответ на гипотезу: правильно или неправильно, а человек — проконтролировать результат. Это относительно простой способ ML, который подходит для классификации данных. Именно обучение с учителем помогает различать объекты.
Обучение без учителя (Unsupervised Learning)	Для обучения берут информацию без разметки. Алгоритм сам должен понять закономерности и признаки, которое отличают объекты. Подходит для прогнозирования и для автоматизированной очистки входных данных, распознавания и понимания языка человека.
Обучение с частичным привлечением учителя (Semi-Supervised Learning)	Здесь используются размеченные и неразмеченные данные. Остальную разметку выполняет сам алгоритм по заданным параметрам. Такое обучение полезно для обработки длинных файлов (например, текстов-лонгридов)
Обучение с подкреплением (Reinforcement Learning)	Способ строится на системе баллов, который модель получает в зависимости действий. Это похоже на систему вознаграждений в игре, где за правильное действие игрок получает бонус

Методы Machine Learning

Байесовский классификатор

Метод получил название от из теоремы Байеса. В основе — определение класса объекта по его признакам. Считается одним из самых простых и используется для рубрикаторов, распознавания объектов на изображениях, определении спамных писем.

Деревья принятия решений

В этом методе модель выявляет взаимосвязь одних событий и объектов с другими и последствия их взаимодействия. Визуально эту схему можно изобразить в виде «разветвлений дерева», где представлены разные варианты развития событий в зависимости от выбора. Это похоже на тесты-алгоритмы с ответами «да» или «нет», которые приводит к результату. Плюс метода — в его системности, но применяется он не везде.

Логистическая регрессия

Статистический метод, который стал использоваться в машинном обучении. Логистическая функция определяет зависимость между одной или несколькими переменными. Объекты разделяются по двум классам по определённым значениям в диапазоне 0-1.

Определение кредитного потенциала, прогнозирование успешности продаж, рекламных кампания и другие верноятностные события выявляют через метод логистической регрессии.

Опорные векторы

Включает несколько алгоритмов, которые классифицируют объекты в гиперплоскости, разделяемую векторами. И задача системы — найти наиболее правильное расположение линии в плоскости для лучшей классификации.

Этот метод решает достаточно сложные задачи и может определить: мужчина или женщина на фото, какую рекламу показывать на сайте пользователю и так далее.

Линейная регрессия

Смысл метода в том, чтобы соотнести одну переменную N с другой переменной или несколькими. Условно на плоскости есть точки данных, для которых нужно найти наиболее подходящую линию, которая их соединит.

Такой алгоритм легко предсказывает тренды, определяет, какой информации не хватает в простых линейных рядах. Например, что нужно добавить в последовательности 10, 20, 30, 40, 50…

Ассамблейные методы

Набор методов, где происходит генерация различных классификаторов и разделение данных по принципу усреднения или голосования. Такой подход уменьшает вероятность ошибок.

К ассамблеям относят:

Бэггинг — базовые модели обучаются параллельно со сбором усложнённых классификаторов.

Бустинг — сильные модели создаются при помощи слабых. Происходит обучение на предыдущих классификаторах, чтобы улучшить и исправить ошибки для следующих.

Кластеризация к-средних

Один из методов кластеризации в машинном обучении. В работе алгоритма используется некоторое рандомное число кластеров K. Для каждого свой центр (точка), от которой считается расстояние до каждой точки данных в группах. Потом центр каждого кластера перечисляется, векторы снова разбивают точки данных на кластеры. Это происходит до того, как изменений больше не происходит.

Кластеризация полезна для биологических исследований, в IT-технологиях и социологии.

Состязательно-генеративное обучение

Этот метод основан на работе нейросетей, которые как бы вступают в борьбу друг с другом (так появилось название). Внутри алгоритмы дискриминатора и генератора. Первый пытается классифицировать входящие данные и соотносит их с категориями. Второй, наоборот, стремится выбрать образы, которые подходят к категориям. То есть генератор создаёт объекты, а дискриминатор их проверяет на подлинность. Именно такой алгоритм умеет создавать изображения несуществующих людей, которые похожи на реальных.

Резюме

Машинное обучение — вид искусственного интеллекта и имитация деятельности человеческого мозга. Первые алгоритмы Machine learning появились в 40-50-х годах прошлого века, но значительного роста достигли в XXI веке и используются сейчас во многих сферах человеческой жизни.

Способы ML классифицируются в зависимости от участия в нём человека. Существует машинное обучение с учителем, без учителя, с частичным привлечением учителя и с подкреплением.

Также есть методы, которые разделяются по принципу работы алгоритма. Выделяют байесовский классификатор, деревья принятия решений, логистическую регрессию, ассамблейные методы (бэггинг, бустинг), кластеризацию к-средних, состязательно-генеративное обучение и другие.

*продукт компании Meta, запрещённой на территории РФ

Подписывайтесь на наш Telegram-канал. Там вы найдёте самые интересные тренды и новости в сфере digital-маркетинга и технологий. Подписывайтесь и будьте в теме вместе с нами!