Архитектура-трансформер: руководство для SEO
Поскольку мы ежедневно сталкиваемся с передовыми технологиями, такими как ChatGPT и BERT, интересно углубиться в основную технологию, лежащую в их основе — преобразователи.
Эта статья призвана упростить преобразователи, объясняя, что они собой представляют, как они функционируют, почему они важны и как вы можете включить этот подход машинного обучения в свои маркетинговые усилия.
Хотя существуют и другие руководства по трансформаторам, в этой статье основное внимание уделяется простому описанию технологии и подчеркиванию ее революционного воздействия.
Понимание преобразователей и обработки естественного языка (NLP)
Внимание было одним из наиболее важных элементов систем обработки естественного языка. Одно только это предложение довольно громоздкое, так что давайте раскроем его.
Ранние нейронные сети для решения задач естественного языка использовали кодировщик RNN (рекуррентная нейронная сеть).
Результаты отправляются в декодер RNN — так называемую модель «последовательность в последовательность», которая кодирует каждую часть входных данных (превращая эти входные данные в числа), а затем декодирует и превращает их в выходные данные.
Последняя часть кодирования (т. е. последнее «скрытое состояние») представляла собой контекст, передаваемый декодеру.
Проще говоря, кодер объединяет и создает состояние «контекста» из всех закодированных частей ввода и передает его декодеру, который разделяет части контекста и декодирует их.
В ходе обработки RNN должны будут обновлять скрытые состояния на основе входных данных и предыдущих входных данных. Это было довольно сложно в вычислительном отношении и могло быть довольно неэффективным.
Модели не могли обрабатывать длинные контексты — и хотя это проблема по сей день, раньше длина текста была еще более очевидной. Введение «внимания» позволило модели обращать внимание только на те части входных данных, которые она считала релевантными.
Внимание повышает эффективность
В основной статье «Внимание — это все, что вам нужно» была представлена архитектура-трансформер .
Эта модель отказывается от механизма рекурсии, , используемого в RNN, и вместо этого обрабатывает входные данные параллельно, что значительно повышает эффективность.
Как и предыдущие модели НЛП, она состоит из кодера и декодера, каждый из которых состоит из нескольких уровней.
Однако в случае трансформаторов каждый уровень имеет многоголовочные механизмы самообслуживания и полностью подключенные сети прямой связи.
Механизм самоконтроля кодировщика помогает модели взвесить важность каждого слова в предложении при понимании его значения.
Представьте, что модель трансформера — монстр:
Многоголовый механизм самосознания подобен нескольким парам глаз, которые одновременно фокусируются на разных словах и их связях, чтобы лучше понять полный контекст предложения.
«Полностью связанные сети прямой связи» – это серия фильтров, которые помогают уточнить и уточнить значение каждого слова после рассмотрения данных механизма внимания.
В декодере механизм внимания помогает сосредоточиться на соответствующих частях входной последовательности и ранее сгенерированных выходных данных, что имеет решающее значение для создания последовательных и контекстуально соответствующих переводов или генерации текста.
Кодер преобразователя не просто отправляет последний этап кодирования в декодер; он передает все скрытые состояния и кодировки.
Эта богатая информация позволяет декодеру более эффективно привлекать внимание. Он оценивает связи между этими состояниями, присваивая и усиливая оценки, имеющие решающее значение на каждом этапе декодирования.
Оценки внимания в трансформерах рассчитываются с помощью набора запросов, ключей и значений. Каждое слово во входной последовательности преобразуется в эти три вектора.
Оценка внимания вычисляется с использованием вектора запроса и вычисления его скалярного произведения со всеми ключевыми векторами.
Эти оценки определяют, сколько внимания каждое слово должно уделять другим словам. Затем оценки уменьшаются и передаются через функцию softmax, чтобы получить распределение, сумма которого равна единице.
Чтобы сбалансировать эти оценки внимания, преобразователи используют функцию softmax, которая нормализует эти оценки до «между нулем и единицей в положительном направлении». Это обеспечивает равномерное распределение внимания по словам в предложении.
Вместо проверки слов по отдельности модель преобразователя обрабатывает несколько слов одновременно, что делает ее быстрее и умнее.
Если вы подумаете о том, насколько прорывным был BERT для поиска, вы увидите, что энтузиазм возник из-за того, что BERT был двунаправленным и лучше понимал контекст.
В языковых задачах понимание порядка слов имеет решающее значение.
Модель преобразователя учитывает это, добавляя к представлению каждого слова специальную информацию, называемую позиционным кодированием. Это похоже на размещение маркеров на словах, чтобы информировать модель об их положении в предложении.
Во время обучения модель сравнивает свои переводы с правильными. Если они не совпадают, он уточняет свои настройки, чтобы приблизиться к правильным результатам. Они называются «функциями потерь».
При работе с текстом модель может выбирать слова шаг за шагом. Он может либо каждый раз выбирать лучшее слово (жадное декодирование), либо рассматривать несколько вариантов (лучевой поиск), чтобы найти лучший общий перевод.
В преобразователях каждый уровень способен обучать различные аспекты данных.
Обычно нижние уровни модели отражают больше синтаксических аспектов языка, таких как грамматика и порядок слов, поскольку они ближе к исходному входному тексту.
По мере перехода на более высокие уровни модель захватывает более абстрактную и семантическую информацию, такую как значение фраз или предложений и их отношения в тексте.
Такое иерархическое обучение позволяет трансформерам понимать как структуру, так и значение языка, что способствует их эффективности в различных задачах НЛП.
Что такое обучение и тонкая настройка?
Обучение преобразователя включает в себя его воздействие на множество переведенных предложений и настройку его внутренних настроек (весов) для получения более качественных переводов. Этот процесс аналогичен обучению модели опытному переводчику путем демонстрации множества примеров точных переводов.
Во время обучения программа сравнивает свои переводы с правильными, что позволяет исправить ошибки и повысить производительность. Этот шаг можно рассматривать как исправление учителем ошибок ученика, чтобы облегчить его улучшение.
Разница между обучающим набором модели и обучением после развертывания значительна. Первоначально модели изучают шаблоны, язык и задачи из фиксированного обучающего набора, который представляет собой предварительно скомпилированный и проверенный набор данных.
После развертывания некоторые модели могут продолжать учиться на новых данных, с которыми они сталкиваются, но это не автоматическое улучшение: требуется тщательное управление, чтобы гарантировать, что новые данные полезны, а не вредны или непредвзяты.
>
Трансформеры против RNN
Трансформеры отличаются от рекуррентных нейронных сетей (RNN) тем, что они обрабатывают последовательности параллельно и используют механизмы внимания для взвешивания важности различных частей входных данных, что делает их более эффективными и действенными для определенных задач.
Трансформеры в настоящее время считаются лучшими в НЛП благодаря их эффективности при захвате языкового контекста в длинных последовательностях, что обеспечивает более точное понимание и создание языка.
Они часто считаются лучшими, чем сети с длинной краткосрочной памятью (LSTM) (тип RNN), поскольку они быстрее обучаются и могут более эффективно обрабатывать более длинные последовательности благодаря механизмам параллельной обработки и внимания.
р>
Трансформеры используются вместо RNN для задач, где контекст и взаимосвязь между элементами в последовательностях имеют первостепенное значение.
Природа параллельной обработки преобразователей позволяет одновременно вычислять внимание для всех элементов последовательности. Это сокращает время обучения и позволяет моделям эффективно масштабироваться с большими наборами данных и размерами моделей, учитывая растущую доступность данных и вычислительных ресурсов.
Трансформеры имеют универсальную архитектуру, которую можно адаптировать за пределами НЛП. Трансформеры расширились до компьютерного зрения благодаря преобразователям зрения (ViT), которые рассматривают фрагменты изображений как последовательности, подобные словам в предложении.
Это позволяет ViT применять механизмы самоконтроля для фиксации сложных взаимосвязей между различными частями изображения, что обеспечивает высочайшую производительность в задачах классификации изображений.
Анонсы наших новых статей в Телеграме