ИИ и Natural Language Processing: большой обзор рынка. Часть 1
23.12.2019
Источник: VC.ru Проект: Технологические конкурсы НТИ Up Great
В рамках серии Up Great стартовали новые конкурсы по искусственному интеллекту. Победители получат 200 млн руб. за решения, способные анализировать тексты на русском и английском языке. Пока идет сбор заявок, мы запускаем цикл статей о том, как сегодня выглядит рынок Natural Language Processing в России и в мире.
РВК
Технологии ИИ стали ключевым технологическим трендом 2018 года, а объем глобальных инвестиций в эти технологии и продукты на их основе превышает 1 млрд долларов.
За период 2011–2018 гг. было приобретено более 180 частных компаний, работающих над проектами технологий ИИ. По прогнозам Frost&Sullivan, к 2022 году рынок искусственного интеллекта вырастет до 10 млрд долларов за счет применения технологий машинного обучения и распознавания естественного языка в рекламе, розничной торговле, финансах и здравоохранении.
Динамика искусственного интеллекта будет основываться на шести фундаментальных технологиях:
— машинное обучение,
— глубинное обучение,
— компьютерное зрение,
— обработка естественного языка,
— машинная аргументация и сильный искусственный интеллект.
Основными драйверами рынка станут секторы потребительских продуктов, бизнес-услуг, рекламы и обороны.
Рынок обработки естественного языка (NLP) и продуктов на его основе оценивается аналитиками в районе 8 млрд долларов в 2018 году и вырастет до 40 млрд долларов к 2025 году. Основными драйверами станут возрастающий спрос на более продвинутый уровень пользовательского опыта, рост пользования умными девайсами, рост инвестиций в здравоохранение, растущее применение сетевых и облачных бизнес-приложений и рост M2M-технологий.
Динамика рынка NLP. Исследование Frost&Sullivan для технологических конкурсов Up Great
Что такое NLP
Обработка естественного языка (NLP, Natural Language Processing) — технология, находящаяся на пересечении computer science, искусственного интеллекта и лингвистики. Ее основное предназначение заключается в обработке и «понимании» естественного языка и ответа на вопросы.
Сегодня роль технологий обработки естественного языка постоянно возрастает в связи с тем, что темпы роста объемов неструктурированной и полуструктурированной текстовой информации превышают темпы роста хорошо структурированных данных.
С развитием голосовых интерфейсов и чат-ботов, NLP постепенно становится одной из ключевых технологий практического применения искусственного интеллекта.
Чат-боты компании «Наносемантика» nanosemantics.ai/demo
Задачи и сферы применения NLP:
Рост рынка NLP сдерживается такими факторами, как наличие разрыва в части восприятия/понимания/распознавания текстовой информации между человеком и машиной, дефицит кадров и программ подготовки исследователей в области NLP, а также сложность машинной обработки и понимания контекста и смысла текстов.
Также одним из вызовов в сегменте обработки естественного языка остается создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом с помощью одной системы. То есть системы, которая будет «понимать» текстовую информацию и сможет взаимодействовать с человеком так, как это делал бы другой человек, прочитавший текст и обладающий некоторым багажом знаний.
Определенные ограничения существуют непосредственно применительно к пониманию русского языка. В данном случае качество понимания зависит от множества факторов: языка, национальной культуры, самого собеседника и т.д. Например:
— Сложности с раскрытием анафор (в лингвистике «анафора» — зависимость интерпретации некоторого выражения от другого выражения, обычно ранее встречавшегося в тексте). Например, предложения «Мы отдали бананы обезьянам, потому что они были голодные» и «Мы отдали бананы обезьянам, потому что они были перезрелые» похожи по синтаксической структуре. В одном из них местоимение «они» относится к обезьянам, а в другом — к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны.
— Свободный порядок слов может привести к совершенно иному толкованию фразы (пример: «Бытие определяет сознание» — что определяет что?)
— В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему. В речи могут встретиться неологизмы, например, глагол «пятидесятирублируй» — то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
— Наконец, еще одна сложность заключается в правильном понимании фонетических омонимов при распознавании речи.
Юрий Молодых, Директор по развитию Up Great
Технологический барьер конкурса Up Great по ИИ — создание системы, которая сможет за секунды в напечатанном человеком тексте найти фактические, логические и смысловые ошибки, а также объяснить, в чем суть ошибки, на понятном человеку языке. И сделать она должна это лучше, чем человек, у которого есть ограниченное время — несколько минут на страницу текста.
Тексты, которые будет ИИ анализировать — эссе, написанные студентами и школьниками по широкому набору тематик. Почему мы выбрали эссе?
Во-первых, для них существуют объективные критерии проверки. Другие актуальные задачи, например, выявление Fake News, очень сложно автоматизировать по причине неопределенности самого понятия. Эту проблему хорошо иллюстрирует кейс Facebook, который купил в 2018 году перспективную британскую команду Bloomsbury, но после первых экспериментов отказался от идеи заменить модераторов на алгоритм.
Во-вторых, такой барьер решает важную социальную задачу. Инструмент, который позволит миллионам обучающихся и преподавателей автоматизировать операции, связанные с работой со смыслом текста, нахождением фактических ошибок и разрывов в логике, будет крайне востребован в любого рода образовательных процессах. Такой ИИ будет использоваться как тренажер и позволит обучающимся независимо от места проживания получить доступ к качественной обратной связи.
Рыночные тенденции в сегменте NLP
Стратегия развития основных игроков рынка NLP в мире подразумевает увеличение рыночной доли и прибыльности. Ключевые игроки (крупные компании) приобретают стартапы, работающие над технологиями обработки естественного языка, чтобы усилить свои позиции и расширить возможности собственных выпускаемых продуктов.
Так, в апреле 2018 года Microsoft приобрела стартап Semantic Machines (специализация — распознавание речи и NLP) и компанию Maluuba — разработчика голосового помощника. В свою очередь, Apple приобрела компанию Novauris Technologies, которая занимается разработкой специализированных голосовых помощников.
Сеть Walmart приобрела компанию Aspectiva — израильский стартап, специализирующийся на обработке естественного языка, который, как ожидается, позволит повысить эффективность и удобство совершения покупок в супермаркетах сети.
В 2019 году компания 3M объявила о заключении соглашения о приобретении технологического бизнеса компании MModal общей стоимостью $1 млрд. Ожидается, что сделка позволит 3М расширить и усилить бизнес информационных систем для здравоохранения (3M Health Information Systems). MModal является ведущим мировым провайдером информационных технологий для медицины, в том числе облачных сервисов, которые, используя искусственный интеллект, помогают врачам работать с клинической документацией, проводить сбор и анализ данных пациентов.
Рыночные тенденции в сегменте NLP:
Сравнительный анализ технологий NLP
Одна из главных технологических тенденций в сегменте обработки естественного языка на сегодняшний день — это использование методов машинного обучения для снижения трудозатрат на разметку текстов, методов машинного обучения без учителя или с частичным привлечением учителя, методов активного машинного обучения и др.
Высокую эффективность в решении задач обработки языка показали также векторные представления слов и других конструкций языка — то есть глубокое машинное обучение и нейронные сети. Поэтому многие задачи обработки естественного языка сегодня решаются с применением векторных представлений и глубокого обучения нейронных сетей.
Также один из трендов последнего времени — это использование алгоритма переноса знаний (Transfer Learning), в рамках которого NLP-модели обучаются решать несложные задачи с применением большого объема данных. Далее эти предобученные модели используются для решения других, более специфических задач.
Примерами предобученных сетей являются BERT и XLNet, которые можно использовать для решения основных задач обработки естественного языка. Такие модели развивают «идею трансформеров» (или Transformer Network) — доминирующего на данный момент подхода к построению моделей для работы с последовательностями.
Если взглянуть на General Language Understanding Evaluation (GLUE) benchmark Leaderboard[1], то сверху можно увидеть много моделей, основанных на трансформерах. Включая обе модели, которые показывают результат лучше человека.
[1] Бенчмарк GLUE — General Language Understanding Evaluation (общая оценка понимания естественного языка) разработан в 2018 году учеными из Нью-Йоркского университета, университета штата Вашингтон и DeepMind. GLUE оценивает системы понимания естественного языка по результатам выполнения заданий: ответов на вопросы, анализа тональности текста и продолжения повествования. GLUE был опубликован в мае 2018 года, за полгода его существования результаты лучших моделей улучшились с 68% верных ответов до 80% (результат последней модели Google BERT), при этом средний результат человека составляет 90%.
Также стоит отметить, что лингвистические модели прошлых лет (word2vec) были построены на статистике и учитывали совместную встречаемость слов в огромном корпусе текстов. Современные модели (ULMfit, ELMo) используют технологию обучения без учителя.
Общие технологические тенденции рынка NLP (Альманах ИИ. «Обработка естественного языка, распознавание и синтез речи», №2, сентябрь 2019):
— End-to-end решение задач
Все больше решений будет основано на end-to-end подходе, когда нейросетевая модель получает на входе акустический сигнал (звуковые волны) и выдает на выходе акустический сигнал, без промежуточной фазы текста. Это существенно ускорит выполнение моделей и их качество.
— Приближение качества распознавания и генерации речи к человеческой
Количество ошибок при распознавании приблизится к человеческому уровню. Улучшится распознавание смешанной речи нескольких людей, говорящих с различными акцентами в условиях зашумленности. Добавится анализ звуковых сцен с распознаванием пола и возраста говорящих, эмоциональной окраски их речи и характера окружающей обстановки. Синтезированная речь будет неотличима от человеческой.
— Многоязычность
В ближайшее время появятся многоязыковые модели перевода, в том числе, за счет применения transfer learning и за счет использования кроме параллельных корпусов значительно более объемных монокорпусов. В результате значительно повысится качество перевода для малоресурсных языков (с относительно небольшими массивами обучающих выборок). Ручной перевод будет целиком вытеснен машинным благодаря более глубокому машинному пониманию контекста и тематики документов. В перспективе 5-10 лет можно ожидать появление машинного синхронного устного перевода.
— Понимание смысла текстов: переход от NLP к NLU (Natural language Understanding)
В перспективе 5-10 лет появятся и другие приложения, основанные на понимании смысла с учетом контекста: разного рода диалоговые и справочные сервисы, способные понимать контекст диалога, разумно отвечать на вопросы пользователей и направлять ход диалога в нужном направлении. Более глубокое машинное понимание языка выведет на новый уровень автоматическую обработку текстовых потоков в интернете и в соцсетях: сбор и компиляцию фактов, их анализ на непротиворечивость и достоверность.
— Генерация текстов (Natural Language Generation, NLG)
Нейросетевые end-to-end подходы повсеместно заменят классический NLG-pipeline. Применение моделей уровня GPT2 уже дает возможность создавать достаточно длинные статьи по произвольным темам в заданной области с управляемым содержимым. В 5-летней перспективе нейросетевые модели смогут генерировать тексты не хуже человека.
— Платформы и кроссплатформенность
Многие решения станут стандартными, появится множество платформ для сборки приложений на базе голосовых интерфейсов. Облачные платформы будут улучшаться с точки зрения времени отклика, нагрузок и безопасности. Прогнозируется рост инвестиций не в отдельные диалоговые сервисы (чат-боты), а в многофункциональные платформы и кросс-платформенные решения, благодаря которым голосовой ассистент сможет одинаково работать на разных устройствах.
— Технологии для малого количество данных
Будет расти значение методов машинного обучения, которые эффективно работают в условиях малого количества сырых данных: transfer learning, knowledge transfer. В таких применениях также ожидается более широкое использование GAN (generative adversarial networks) для генерации данных для обучения моделей.
— Архитектуры с меньшими требованиями к вычислительным ресурсам
По мере перехода нейросетевых моделей из лабораторий в коммерческие дата-центры повысятся требования к их энергоэффективности. Ожидается появление новых, более эффективных вычислительных архитектур. Например, разреженные сети, сочетающие лучшие качества распределенных и символьных вычислений, модели сложность которых адаптируется к количеству обучающих данных.
Продолжение следует.
Текст подготовлен на основе исследования Frost&Sullivan в интересах Технологических конкурсов Up Great.