Главная

Способы и методы машинного обучения

Дата: 2024-01-11 | Время чтения: 8 минут (1528 слов)

машинное обучение

В 2023 году трудно представить новостную ленту без понятия «‎машинное обучение». Предполагается, что рынок этой технологии к 2030 году достигнет 225 млрд долларов. Для сравнения — на 2023-й прогнозировался рост до 26 млрд.

То есть Machine learning с нами надолго. Технология будет и дальше внедряться в сферы человеческой жизни: прогнозировать, классифицировать, генерировать объекты. Поэтому важно не отставать и понимать, что такое машинное обучение, как ML появилось, какие методы и способы использует. Об этом расскажем в нашей статье.

Суть машинного обучения

Machine learning (машинное обучение) — направление развития искусственного интеллекта, которое имитирует процессы мышления человека. Здесь не задаётся чёткая последовательность действий, которую, к примеру, выполняет программное обеспечение, а происходит постоянное «размышление», как бы это делал мозг.

Машинное обучение — это прогнозирование на основе огромных объёмов данных, в которых алгоритмы находят закономерности. Понятие связано с нейросетями, которые входят в один из типов ML и работают через глубинное обучение.

Алгоритмы машинного обучения применяются для создания сервисов, которые:

  • Рекомендуют продукты, услуги и контент, в том числе на основе действий пользователя. К примеру, так работают онлайн-кинотеатры, которые предлагают фильмы и сериалы, исходя из просмотренных
  • Прогнозируют будущее: возможные тренды, объёмы продаж, заболевания клиентов медклиник по их анамнезу, события и так далее. Модели машинного обучения определяют кредитный рейтинг в банках и предугадывают поведение клиентов, которые, возможно, не смогут выплачивать займ.
  • Распознают объекты на изображениях и видео, понимают речь и анализируют текст. Это ускоряет рутинные процессы, упрощает работу человека и даже обеспечивает безопасность. Например, определение номеров автомобилей по камерам видеонаблюдения — дополнительный контроль.

Как работает машинное обучение

  1. Определение критериев для отбора и сбор данных. Это огромные объёмы информации.
  2. Подготовка сведений — разграничение их метками, которые важны для распознавания алгоритмами ML нужных элементов. Сейчас разметка проводится специалистами и реже автоматизируется, поэтому процесс этот долгий.
  3. Проверка данных и поиск закономерностей. Здесь находят ошибки, чтобы их исправить и сделать следующий этап наиболее точным.
  4. Выбор модели и начало обучения. Алгоритм обрабатывает данные и выдаёт результаты.
  5. Получение и оценка работы алгоритмов. На этом этапе исправляются ошибки, меняются алгоритмы для дальнейшей работы.

Алгоритмы машинного обучения

История Machine Learning

XX век

Первые примеры использования машинного обучения встречаются в середине прошлого века. Скопировать нейрон впервые смогли учёные Уолтер Питтс и Уоррен Мак-Каллок ещё в 1943 году. Далее известен секретный проект армии США 1946 года для программного создания таблиц, которые улучшали меткость стрельбы.

Временем расцвета машин лернинг стали 50-е, когда появилась Checkers-playing — программа Джозефа Вейцбаума, Фрэнка Розенблатта и Артура Сэмюэля, которая умела играть в шашки.

В этот же период стала известной модель нейросети (Mark I Perceptron), имитировавшая работу мозга человека, изобрёл её Розенблатт. В конце 50-х появилась SNARC — нейронка, которая выполняла комплексные задачи. Её создателем выступил американец Марвин Минский.

Само понятие «‎машинное обучение»‎ обозначилось только в 1959 году, его озвучили на конференции в колледже Дартмута (США).

Прототип первого виртуального ассистента запустили в 60-х. Это была система ELIZA, которая воспроизводила как бы диалог с психотерапевтом. В это же десятилетие изобрели алгоритм, который умел распознавать и классифицировать данные. А в конце десятилетия Бернард Уидроу и Себастьян Трун создали алгоритм обратного распространения ошибки — это был большой шаг в улучшении работы нейронок.

В 80-е учёные снова использвали технологии для игры. На этот раз — в шахматы. Молодые учёные из университета Карнеги-Меллон придумали систему ChipTest. На основе этой разработки в конце 90-х появился суперкомпьютер Deep Blue, который обыграл знаменитого шахматиста Гарри Каспарова. Это было одно из первых противостояний машины и человека, которое показало силу машинного обучения в прогнозировании действий роботом.

XXI век

В наше время выросла мощность компьютеров и увеличились объёмы данных, что подтолкнуло ML к новой стадии развитии. В 2000-х появилось понятие «глубокое обучение». Начало 2010-х стало эпохой открытия новых проектов по нейросетям, в частности — в гонку вступает Google, и уже в 2012-м — алгоритм от команды Google X Lab научился узнавать котиков на картинках и в видео. Появился также Google Prediction API — сервис для аналитики и работы Machine learning.

Не отставали гиганты Amazon, Microsoft, Facebook*, у которых появились свои платформы, где работали методы машинного обучения. А технология компании Марка Цукерберга DeepFace научилась распознавать лица с высокой точностью.

В 2020-х роль машинного обучения растёт. Технологии уже работают в сферах финансов, здравоохранения, в промышленности, используются в транспорте и будут всё дальше срастаться с повседневной жизнью людей.

Способы машинного обучения

СпособОписание
Обучение с учителем (Supervised Learning)Модель тренируют на уже подготовленных данных (размеченных) и готовых ответах. Алгоритм должен выбрать ответ на гипотезу: правильно или неправильно, а человек — проконтролировать результат. Это относительно простой способ ML, который подходит для классификации данных. Именно обучение с учителем помогает различать объекты.
Обучение без учителя (Unsupervised Learning)Для обучения берут информацию без разметки. Алгоритм сам должен понять закономерности и признаки, которое отличают объекты. Подходит для прогнозирования и для автоматизированной очистки входных данных, распознавания и понимания языка человека.
Обучение с частичным привлечением учителя (Semi-Supervised Learning)Здесь используются размеченные и неразмеченные данные. Остальную разметку выполняет сам алгоритм по заданным параметрам. Такое обучение полезно для обработки длинных файлов (например, текстов-лонгридов)
Обучение с подкреплением (Reinforcement Learning)Способ строится на системе баллов, который модель получает в зависимости действий. Это похоже на систему вознаграждений в игре, где за правильное действие игрок получает бонус

Методы Machine Learning

Байесовский классификатор

Метод получил название от из теоремы Байеса. В основе — определение класса объекта по его признакам. Считается одним из самых простых и используется для рубрикаторов, распознавания объектов на изображениях, определении спамных писем.

Байесовский классификатор

Деревья принятия решений

В этом методе модель выявляет взаимосвязь одних событий и объектов с другими и последствия их взаимодействия. Визуально эту схему можно изобразить в виде «разветвлений дерева», где представлены разные варианты развития событий в зависимости от выбора. Это похоже на тесты-алгоритмы с ответами «да» или «нет», которые приводит к результату. Плюс метода — в его системности, но применяется он не везде.

Деревья принятия решений

Логистическая регрессия

Статистический метод, который стал использоваться в машинном обучении. Логистическая функция определяет зависимость между одной или несколькими переменными. Объекты разделяются по двум классам по определённым значениям в диапазоне 0-1.

Определение кредитного потенциала, прогнозирование успешности продаж, рекламных кампания и другие верноятностные события выявляют через метод логистической регрессии.

Логистическая регрессия

Опорные векторы

Включает несколько алгоритмов, которые классифицируют объекты в гиперплоскости, разделяемую векторами. И задача системы — найти наиболее правильное расположение линии в плоскости для лучшей классификации.

Этот метод решает достаточно сложные задачи и может определить: мужчина или женщина на фото, какую рекламу показывать на сайте пользователю и так далее.

Опорные векторы

Линейная регрессия

Смысл метода в том, чтобы соотнести одну переменную N с другой переменной или несколькими. Условно на плоскости есть точки данных, для которых нужно найти наиболее подходящую линию, которая их соединит.

Линейная регрессия

Такой алгоритм легко предсказывает тренды, определяет, какой информации не хватает в простых линейных рядах. Например, что нужно добавить в последовательности 10, 20, 30, 40, 50…

Ассамблейные методы

Набор методов, где происходит генерация различных классификаторов и разделение данных по принципу усреднения или голосования. Такой подход уменьшает вероятность ошибок.

К ассамблеям относят:

  • Бэггинг — базовые модели обучаются параллельно со сбором усложнённых классификаторов.

Бэггинг

  • Бустинг — сильные модели создаются при помощи слабых. Происходит обучение на предыдущих классификаторах, чтобы улучшить и исправить ошибки для следующих.

Бустинг

Кластеризация к-средних

Один из методов кластеризации в машинном обучении. В работе алгоритма используется некоторое рандомное число кластеров K. Для каждого свой центр (точка), от которой считается расстояние до каждой точки данных в группах. Потом центр каждого кластера перечисляется, векторы снова разбивают точки данных на кластеры. Это происходит до того, как изменений больше не происходит.

Кластеризация полезна для биологических исследований, в IT-технологиях и социологии.

Кластеризация к-средних

Состязательно-генеративное обучение

Этот метод основан на работе нейросетей, которые как бы вступают в борьбу друг с другом (так появилось название). Внутри алгоритмы дискриминатора и генератора. Первый пытается классифицировать входящие данные и соотносит их с категориями. Второй, наоборот, стремится выбрать образы, которые подходят к категориям. То есть генератор создаёт объекты, а дискриминатор их проверяет на подлинность. Именно такой алгоритм умеет создавать изображения несуществующих людей, которые похожи на реальных.

Состязательно генеративное обучение

Резюме

Машинное обучение — вид искусственного интеллекта и имитация деятельности человеческого мозга. Первые алгоритмы Machine learning появились в 40-50-х годах прошлого века, но значительного роста достигли в XXI веке и используются сейчас во многих сферах человеческой жизни.

Способы ML классифицируются в зависимости от участия в нём человека. Существует машинное обучение с учителем, без учителя, с частичным привлечением учителя и с подкреплением.

Также есть методы, которые разделяются по принципу работы алгоритма. Выделяют байесовский классификатор, деревья принятия решений, логистическую регрессию, ассамблейные методы (бэггинг, бустинг), кластеризацию к-средних, состязательно-генеративное обучение и другие.

*продукт компании Meta, запрещённой на территории РФ

Подписывайтесь на наш Telegram-канал. Там вы найдёте самые интересные тренды и новости в сфере digital-маркетинга и технологий. Подписывайтесь и будьте в теме вместе с нами!

Facebook

Vkontakte

LinkedIn

Twitter

Telegram

Поделиться

Если статья была вам полезна, поделитесь с вашими друзьями ;)
Автор: Людмила Коваленко

Facebook

Vkontakte

LinkedIn

Twitter

Telegram

Вам может быть интересно:

Как онлайн-кинотеатр PREMIER сократил время отправки кампаний с 3 часов до 1

О том, как PREMIER настроил броадкасты и автоматизировал цепочки коммуникаций.

Читать далее
Digital маркетинг финансовых услуг: лучшие практики

Перевели статью Talkwalker о лучших маркетинговых digital-стратегиях для сферы финансовых услуг. О том, как продвигать банки, страховые и брокерские компании, читайте в нашей статье.

Читать далее
Аудит качества данных: что это и зачем нужен маркетингу

О том, что такое аудит данных, как его правильно провести и в чём важность для бизнеса.

Читать далее