Большие модели действий (LAM): как ИИ выполняет задачи бизнеса
Оставить заявку

Руководство по большим моделям действий: ИИ, который выполняет поставленные задачи

Генеративный ИИ вызвал настоящий ажиотаж. Эта прорывная технология стала объектом пристального изучения, применения и дальнейших исследований, на ее долю приходится значительная доля как новаторских разработок, так и откровенно смехотворных трюков. Только в 2024 году, благодаря устройству с ИИ-асистентом Rabbit R1, мир познакомился с концепцией больших моделей действий (LAM – Large Action Model) – ранее не использовавшимся термином, но слишком многообещающим, чтобы не рассмотреть его более внимательно.

Но, как мы уже видели, не все технические чудеса таковы, какими их изображают. Есть ли реальная ценность в больших моделях действий? Эксперты ИИ из Кронит подготовили базу для вас.

Что такое большая модель действий?

Большие модели действий (LAM) – это тип искусственного интеллекта, предназначенный для автономного преобразования намерений человека в действия. Большие модели действий (LAM) стремятся быть независимыми от платформы, универсальными, ориентированными на действия агентами, способными выполнять задачи на любом веб-сайте или сервисе. 

Большая модель действий (LAM) привносит усовершенствованный подход в известные модели больших языков. В отличие от больших языковых моделей (LLM – Large Language Model), модели больших действий (LAM) выходят за рамки понимания и генерации естественного языка, добавляя в уравнение еще один ключевой элемент – действие. Благодаря усовершенствованному многоступенчатому логическому мышлению больших моделей действий (LAM) можно выполнять сложные взаимосвязанные действия, балансируя как в текстовом, так и во внешнем интерактивном контекстах.

С технической точки зрения, большие модели действий (LAM) основаны на нейронных моделях, таких как большие языковые модели (LLM), но ядро нейросимволического программирования больших моделей действий (LAM) также объединяет сильные стороны символьного ИИ – технологии, которая, как известно, наделяет интеллектуальные системы способностью мыслить, как человек. Модель больших действий (LAM) с открытым исходным кодом также может сочетать логическое программирование с компьютерным зрением и языковыми моделями для улучшения мышления и планирования.

Наши эксперты отмечают, что на данный момент решения на основе больших моделей действий (LAM), как вышеупомянутое устройства Rabbit R1, по-прежнему требуют довольно тщательной настройки для корректного выполнения действий. Это означает, что потенциал больших моделей действий (LAM) пока не реализован в полной мере, но уже представляет собой ключевую веху, которая может изменить наш подход к ИИ и взаимодействие с ним.

Давайте разберемся с основными возможностями больших моделей действий (LAM)

В то время как большие языковые модели (LLM) ограничены обработкой текстов, область знаний больших моделей действий (LAM) намного шире благодаря сочетанию традиционной интерпретируемости с помощью искусственного интеллекта и адаптивных возможностей передового машинного обучения.

Способность самостоятельно справляться со сложными задачами по принятию решений

В решениях на основе больших моделей действий (LAM) сочетание обучения с подкреплением на основе обратной связи от человека (RLHF – Reinforcement Learning from Human Feedback) и нейросимволического искусственного интеллекта обеспечивает более эффективное планирование и логическое обоснование, позволяя большим моделям действий (LAM) выполнять задачи абстрактного характера.

Как и люди, большие модели действий (LAM) могут учитывать различные переменные, взвешивать варианты и определять наилучший вариант действий.
Например, в сфере обслуживания клиентов большие модели действий (LAM) могут обрабатывать возврат товара или сложные запросы клиентов. Кроме того, они позволяют анализировать прошлые взаимодействия и использовать контекстное понимание для более эффективной автоматизации сложных задач.

Что ещё более важно, решения на основе больших моделей действий (LAM) позволяют автоматизировать сложные задачи быстрее, проще и с меньшими затратами ресурсов. При использовании традиционных систем искусственного интеллекта компаниям требуются значительные усилия по написанию кода, чтобы разбить сценарий использования на набор правил и этапов, а затем интегрировать его в существующие системы. Большие модели действий (LAM) потенциально позволяют упростить этот процесс, используя естественный язык для описания и реализации рабочих процессов.

Интеграция со сторонними системами и устройствами интернета вещей

Большие модели действий (LAM) также способны взаимодействовать со сторонними системами, включая базы данных, различные приложения и устройства интернета вещей, для анализа больших объёмов данных, выполнения действий от имени пользователя, удалённого управления устройствами и решения других задач, которые ранее были под силу только человеку. Например, большие модели действий (LAM) могут получать доступ к сторонним приложениям для бронирования, обработки финансовых транзакций, получения информации о фондовом рынке и выполнения других операций.

Давайте посмотрим, как эта растущая сверхспособность проявляется в модели больших действий устройства Rabbit R1. Как только пользователь входит в приложения через защищённый облачный сервис Rabbithole, большая модель действий (LAM) может взаимодействовать с приложениями от имени пользователя и выполнять цифровые поручения. Однако, поскольку устройство Rabbit R1, по сути, является автономным, оно не взаимодействует с приложениями на телефоне пользователя. Вместо этого оно имеет пользовательские версии отдельных приложений в облаке.

Выполнение и адаптация задач в режиме реального времени

Благодаря присущей им процедурной памяти большие модели действий (LAM) могут приобретать новые навыки в ходе повторяющихся тренировок и быстрее, точнее и снижать количество ошибок при выполнении задач. В некотором смысле эта способность напоминает когнитивные способности человека, когда младенцы учатся выполнять действия. Однако процедурная память больших моделей действий (LAM) ограничена их базовой архитектурой и обучающими данными.

Наряду с процедурной памятью большие модели действий (LAM) также способны запоминать требования и предпочтения пользователей. Проще говоря, встроенная персонализированная память позволяет системе на основе больших моделей действий (LAM) запоминать предпочтительный маршрут пользователя до места работы или часто запланированные встречи.

Например, компания-разработчик устройства Rabbit R1 планирует запустить режим обучения – функцию, которая позволяет пользователям показывать системе, как выполнять конкретные нетривиальные задачи в специализированных приложениях и рабочих процессах.

Наши эксперты отмечают, что в отличие от генеративных моделей, таких как ChatGPT или Gemini, большие модели действий (LAM) обучаются на демонстрациях и действиях, что позволяет им определять, какие действия следует предпринять на основе запроса. Хотя такая ориентированность на действия делает большие модели действий (LAM) принципиально новым типом по сравнению с большими языковыми моделями (LLM), различие между агентами искусственного интеллекта и большими моделями действий (LAM) не столь очевидно.

Что могут большие модели действий (LAM), чего не могут агенты генеративного ИИ?

Названия, особенно удачно подобранные, могут существенно влиять на узнаваемость, понимание и принятие продуктов и идей. Помните, как концепция облачных технологий, продвигаемая компаниями Amazon и Google, изменила правила игры? Дело в том, что «облако» существовало и до появления этого термина и было известно под менее привлекательными названиями – «удалённое хранилище» и «распределённые вычисления». Однако после изменения подхода концепция стала значительно проще и привлекательнее как для бизнеса, так и для потребителей.

То же самое относится и к большим моделям действий (LAM).

Если внимательно изучить их функции и возможности, становится очевидно, что они во многом повторяют подход агентов генеративного ИИ и мультиагентных систем. Последние выполняют схожие функции, но не имеют столь яркого позиционирования.

Не стоит полагаться только на это утверждение – обратимся к мнению компании Microsoft. Вот какие возможности, по мнению технологической компании, характерны для ассистентов на основе ИИ:

  1. Благодаря интеграции больших языковых моделей (LLM) агенты искусственного интеллекта могут планировать и упорядочивать действия для достижения конкретных целей.
  2. Использовать различные инструменты, включая выполнение кода, поиск и вычисления с помощью вызова функций, для повышения эффективности выполнения задач.
  3. Воспринимать окружающую среду с помощью датчиков, таких как камеры и микрофоны, анализируя визуальную, звуковую и другую сенсорную информацию.
  4. Помимо запоминания поведения, такие системы могут сохранять информацию о прошлых взаимодействиях, связанных с использованием инструментов и восприятием, чтобы учитывать её при выполнении будущих действий и постоянно совершенствоваться.

В целом системы больших моделей действий (LAM) можно рассматривать как более продвинутую разновидность агентов ИИ, специально предназначенных для выполнения действий и взаимодействия с реальным миром, в отличие от простых рефлекторных агентов.

Как большие модели действий (LAM) переходят от слов к действиям за шесть шагов

Подобно робототехническим системам на основе ИИ, большие модели действий (LAM) используют иерархический подход к представлению и выполнению действий. Для выполнения задач они разбивают сложные действия на более мелкие и управляемые подзадачи. Эти подзадачи затем могут повторно использоваться в различных контекстах, повышая гибкость и возможности планирования больших моделей действий (LAM).

Обработка мультимодальных входных данных

Большие модели действий (LAM) активируются при вводе данных пользователем, что служит отправной точкой для их работы. Они могут обрабатывать различные входные данные, включая текст, изображения и действия пользователя. Возможность анализа мультимодальных данных способствует более естественному и интуитивно понятному взаимодействию с пользователем, а также расширяет спектр задач, которые могут выполнять большие модели действий (LAM).

Например, в устройстве Rabbit R1 используется механизм генерации ответов на основе системы Perplexity, который позволяет анализировать текстовый ввод без ограничений по объёму знаний.

Расшифровка человеческих намерений

Как только пользовательские данные поступают в систему больших моделей действий (LAM), она интерпретирует их смысл, используя комбинацию передовых технологий, таких как символьный ИИ и нейронные сети. Большие модели действий (LAM) анализируют весь спектр сигналов, включая язык, прошлое поведение, внешний контекст и другие факторы, чтобы определить намерения человека, лежащие в основе ввода.

Интерпретация пользовательского интерфейса

Для выполнения сложных задач и эффективного взаимодействия с интерфейсами большие модели действий (LAM) должны анализировать то, что они видят на экране. Поэтому большие модели действий (LAM) формируют подробное представление о кнопках, полях и изображениях в интерфейсах приложений, чтобы точно определять назначение и функциональность элементов пользовательского интерфейса в рамках конкретного приложения. После этого система может беспрепятственно взаимодействовать с соответствующими элементами на основе полученных данных.

Декомпозиция задач и последовательное выполнение действий

После получения задач, ориентированных на выполнение действий, большая модель действий (LAM) сначала разбивает их на этапы, формируя иерархическую структуру. Символьный ИИ позволяет системе моделировать действия и определять оптимальную последовательность, которая приведёт её от исходной точки к целевому результату.

На основе анализа входных данных и выявленных задач большие модели действий (LAM) формируют точные запросы, дополненные данными о предыдущем опыте и формализованными знаниями предметной области, которые направляют последующие действия и позволяют системе использовать накопленный контекст.

Выполнение действия

На заключительном этапе большая модель действий (LAM) может выполнять действия либо самостоятельно, либо взаимодействуя с внешними системами и инструментами, такими как инструменты веб-автоматизации. Большие модели действий (LAM) могут использовать программные интерфейсы приложений (API) для взаимодействия со сторонними системами – например, получать доступ к погодным сервисам для анализа текущих погодных условий. Но что особенно важно, некоторые большие модели действий (LAM) могут отправлять команды устройствам, в то время как другие способны взаимодействовать с веб-приложениями, имитируя действия пользователя, такие как нажатие кнопок, заполнение форм и переход между страницами.

Анализ результатов и обучение на основе обратной связи

В отличие от других решений на основе ИИ, большие модели действий (LAM) являются системами с непрерывным обучением: они постоянно развиваются и реагируют на обратную связь. Благодаря обучению с подкреплением большие модели действий (LAM) могут формировать итеративный цикл обучения, который совершенствуется за счёт моделирования действий, оценки их результатов и соответствующей корректировки поведения.

Кроме того, большие модели действий (LAM) предусматривают контроль со стороны человека, что помогает направлять модель в нужную сторону и со временем повышать её эффективность за счёт внедрения обратной связи.

Отметим что, внутренние механизмы больших моделей действий (LAM) во многом схожи с системами агентов ИИ. Однако в агентных системах обычно используется более выраженная иерархическая структура: отдельные агенты выполняют специализированные роли, а управляющий агент распределяет и координирует задачи, тогда как большие модели действий (LAM), как правило, выполняют декомпозицию и планирование в рамках более единой архитектуры.

Применение больших моделей действий (LAM): от ажиотажа к реальной ценности

Хотя это может показаться очередным смещением ориентиров, замена «языка» на «действие» – один из тех случаев, когда одно слово меняет всё, включая область применения. Большие модели действий (LAM) развивают идеи, заложенные в сценариях применения больших языковых моделей (LLM), представляя собой эволюцию от генеративных технологий к технологиям, ориентированным на выполнение действий – именно такого технологического прорыва давно ожидали многие отрасли.

Здравоохранение

Огромный объём административных задач, а также работа с пациентами и процессами приёма вынуждают сферу здравоохранения стремиться к автоматизации – потребности, которую ИИ предыдущего поколения смог удовлетворить лишь частично.

Большие модели действий (LAM) могут дополнительно решить ряд существующих проблем, с которыми сталкиваются медицинские организации, с учётом действующих нормативных требований, моделей оказания медицинской помощи, механизмов возмещения затрат и особенностей организационной структуры.

Выполнение задач в процессах электронных медицинских записей, ведении документации и планировании – одна из областей, где системы больших моделей действий (LAM) могут снять значительную часть административной нагрузки с медицинского персонала. Они способны динамически корректировать расписание в зависимости от изменяющихся условий, учитывая предпочтения пациентов, доступность врачей и ресурсы учреждения.

Агент на основе больших моделей действий (LAM) также может отслеживать состояние пожилых пациентов вне медицинских учреждений, помогая им при незначительных проблемах со здоровьем и при необходимости записывая их на приём к медицинским специалистам.

Большие модели действий (LAM) также могут поддерживать принятие клинических решений, предлагая персонализированные планы лечения на основе совокупности различных факторов, включая клинические рекомендации, данные пациентов и их предпочтения. В отличие от систем разговорного ИИ, большие модели действий (LAM) не требуют специализированной интеграции для доступа к медицинским системам, таким как электронные медицинские записи или системы обмена медицинской информацией, обеспечивая обработку данных в режиме реального времени и способствуя более эффективному принятию решений.

Финансы

40% инвесторов сожалеют о принятых инвестиционных решениях. Персонализированная система поддержки на основе больших моделей действий (LAM) может помочь предотвратить такие дорогостоящие ошибки, предоставляя индивидуальные инвестиционные рекомендации с учётом финансового положения инвестора, его склонности к риску, целей и рыночных данных. Затем система может реализовать эти рекомендации на практике, например совершать сделки или переводить средства от имени инвестора.

Для банков и финансовых организаций система, ориентированная на выполнение действий, открывает дополнительные возможности для повышения качества обслуживания клиентов. Когда ресурсы специалистов ограничены, большие модели действий (LAM) могут вести сложные голосовые взаимодействия, обеспечивать оперативную поддержку и предлагать рекомендации с учётом предпочтений пользователей и предыдущих взаимодействий.

Андеррайтинг кредитов – ещё один процесс, который может выиграть от внедрения решений на основе больших моделей действий (LAM). Для подготовки кредитного меморандума менеджеры по работе с клиентами и кредитные аналитики должны изучить более 15 источников информации о заёмщике, типе кредита и других факторах, а затем после многочисленных согласований и уточнений подготовить документ.

Большие модели действий (LAM) могут избавить менеджеров и аналитиков от необходимости выполнять масштабный анализ данных, повышая производительность и сокращая время, затрачиваемое на подготовку меморандумов по кредитным рискам. Используя ИИ, ориентированный на выполнение действий, пользователь может с помощью естественного языка описать общий рабочий процесс, включая конкретные правила, стандарты и условия. После этого система агентов ИИ берёт на себя дальнейшую работу: взаимодействует с заёмщиком, собирает документы, рассчитывает финансовые коэффициенты и выполняет остальные рутинные операции.

Управление цепочкой поставок

Текущие проблемы в управлении цепочками поставок создают благоприятные условия для инноваций, и большие модели действий (LAM) хорошо подходят для решения этих задач. Поскольку системы управления цепочками поставок обычно включают широкий набор программного обеспечения, в том числе системы планирования ресурсов предприятия (ERP), системы управления складом (WMS), системы управления транспортировкой (TMS), устройства интернета вещей (IoT) и другие решения, средства автоматизации требуют большого количества интеграций для доступа к консолидированным данным в режиме реального времени и их анализа.

В отличие от этого, системы ИИ, ориентированные на выполнение действий, без затруднений интегрируются с промышленными системами управления и устройствами интернета вещей. Они могут напрямую выполнять действия, например собирать данные с датчиков или запускать оповещения о техническом обслуживании. Ниже приведены возможные области применения больших моделей действий (LAM) в цепочках поставок.

  1. Прогнозное техническое обслуживание – большие модели действий (LAM) могут накапливать данные с датчиков и из других источников, чтобы прогнозировать отказы оборудования и направлять оповещения о необходимости технического обслуживания.
  2. Контроль качества – за счёт сочетания компьютерного зрения, данных с датчиков, машинного обучения и справочных данных большие модели действий (LAM) могут выявлять проблемы с качеством и немедленно запускать корректирующие действия.
  3. Оптимизация запасов – системы больших моделей действий (LAM) способны не только выполнять сложные задачи анализа данных, например выявлять закономерности и аномалии в данных о спросе, но и автономно реагировать на изменения спроса или предложения, корректируя уровень запасов, размещая заказы и управляя транспортировкой.
  4. Промышленные роботы – большие модели действий (LAM) могут изменить взаимодействие человека и робота, позволяя автоматизированным системам понимать намерения человека и безопасно работать рядом с ним.

Наряду с этими практическими сценариями сервисы и решения по разработке ИИ, ориентированного на выполнение действий, могут улучшить практически все логистические процессы – от оптимизации маршрутов до управления транспортными ресурсами и систем безопасности транспортных средств. Например, такие системы могут динамически корректировать маршруты на основе дорожной обстановки в режиме реального времени и данных систем управления транспортировкой (TMS). Затем они могут определять оптимальный вид транспорта на основе проанализированных данных и назначать маршруты для каждого транспортного средства с учётом таких факторов, как вместимость, местоположение и доступность водителя.

Практически любое предприятие

Не существует ни одной компании, которая не могла бы извлечь выгоду из возможностей стратегического планирования, обеспечиваемых большими моделями действий (LAM). Большие модели действий (LAM) анализируют данные глубже, чем традиционные аналитические решения, устраняя разрыв между улучшенным принятием решений и последующими действиями.

Давайте рассмотрим практические примеры применения больших моделей действий (LAM), которые могут существенно изменить работу предприятий.

  • взаимодействие с клиентами – чат-боты на основе больших моделей действий (LAM) могут автоматизировать многие рутинные задачи обслуживания клиентов, обеспечивая адресную поддержку в режиме реального времени. Выявляя возможные неисправности оборудования или потенциальные проблемы клиентов до их возникновения, большие модели действий (LAM) могут автоматически инициировать такие действия, как уведомление службы технического обслуживания или размещение заказов на запасные части;
  • обнаружение мошенничества – системы ИИ, ориентированные на выполнение действий, способны выявлять мошеннические операции в больших массивах транзакционных данных и автоматически принимать защитные меры в экстренных ситуациях;
  • автоматизация процессов – большие модели действий (LAM) могут выполнять значительную часть трудоёмких задач, включая автоматизированный ввод данных, обработку платежей, финансовый анализ, управление договорами и проверку документов;
  • ИТ-поддержка – системы, ориентированные на выполнение действий, могут выступать в роли технических помощников, устраняя неполадки и предоставляя необходимую поддержку пользователям;
  • управление соблюдением требований – большие модели действий (LAM) могут упростить выполнение рутинных задач по соблюдению требований, таких как подготовка отчётов, проведение аудитов и обновление данных.

Возьмите на заметку: три истории успеха с использованием искусственного интеллекта, ориентированного на выполнение действий

В то время как некоторые компании с осторожностью присматриваются к тренду больших моделей действий (LAM), другие не остаются в стороне и ищут способы повысить качество обслуживания клиентов с помощью доступных технологий. Посмотрите, каких результатов удалось добиться нашим недавним клиентам.

  • трансформация банковского обслуживания с помощью ИИ.

Один из наших клиентов, чешский банк, на практике убедился в значительном потенциале агентов ИИ. Разработанный нами чат-бот на основе ИИ, в основе которого лежат большие языковые модели (LLM) и искусственный интеллект, ориентированный на выполнение действий, а также технологии распознавания закономерностей, речи и продвинутые алгоритмы глубокого обучения, обеспечил увеличение показателя решения обращений при первом контакте на 60% и снял до 98% клиентских запросов с сотрудников.

  • управление всеми аспектами путешествий в одном приложении с помощью интеллектуального виртуального помощника.

Компания из сферы туризма и гостеприимства пошла ещё дальше, заказав виртуального агента на основе ИИ. Требовалось создать полноценного помощника, способного бронировать транспорт, билеты на мероприятия и отели, а также управлять платежами от имени пользователей, избавляя их от необходимости переключаться между несколькими приложениями. Менее чем через год после внедрения универсальный цифровой помощник обеспечил рост годового уровня удержания клиентов на 13%.

Основная проблема, связанная с предоставлением ИИ возможности действовать, все еще остается нерешенной

По мере того как модели, ориентированные на выполнение действий, выходят за рамки привычных подходов, связанные с ними риски в области безопасности данных и соответствия требованиям также становятся более значительными. Хотя интеграция нейросимволического ИИ обеспечивает большим моделям действий (LAM) более высокий уровень прозрачности по сравнению с другими решениями на основе ИИ, это не делает их невосприимчивыми к ошибкам и предвзятости, которые могут возникать из-за недостаточно проработанных запросов, низкого качества данных или непредвиденных ситуаций, к которым модели не были подготовлены.

Поэтому, прежде чем поручать системам на основе ИИ, ориентированного на выполнение действий, дополнительные задачи, необходимо убедиться в наличии базовых механизмов защиты, включая чётко определённые единые стандарты работы с данными, доступ к полным, точным и актуальным данным, а также меры обеспечения безопасности данных, такие как минимизация, анонимизация и шифрование.

Что касается мер по снижению рисков, характерных для больших моделей действий (LAM), рекомендуется изолировать их от основных систем, чтобы защитить инфраструктуру от непреднамеренных последствий и обеспечить контролируемую среду для тестирования и экспериментов.

Кроме того, состязательное тестирование, имитирующее реальные атаки на систему и выявляющее её уязвимости, может защитить компанию от негативных последствий и гарантировать, что результаты работы искусственного интеллекта, ориентированного на выполнение действий, не содержат конфиденциальных данных, предвзятости и ошибок.

Новый взгляд на привычные подходы

Несмотря на то что большие модели действий (LAM) позиционируются как технологический прорыв, в основном они предлагают возможности, которые уже реализованы в агентах ИИ – более зрелой технологии, активно используемой сегодня ведущими компаниями. И те и другие способны воспринимать окружающую среду и взаимодействовать с ней, рассуждать, адаптировать поведение со временем и помогать в принятии сложных решений.

Таким образом, даже если эта технология не оправдает ожиданий, вы всё равно можете заранее подготовиться к внедрению ИИ, ориентированного на выполнение действий, и получить конкурентное преимущество, интегрировав агентов ИИ в свои рабочие