Исходный код модели Facebook XLS-R выложили в интернет

Исходный код модели Facebook XLS-R выложили в интернет

27.01.2022      8096

Одна из самых мощных многоязычных моделей распознавания речи XLS-R теперь доступна всем разработчикам. Facebook опубликовала исходный код решения на GitHub и Hugging Face.

Зачем нужна модель

Технологии перевода с одного языка на другой в режиме реального времени уже появились в Google Translate, Skype и других приложениях. Но пока они доступны для небольшого количества языков, ведь модели искусственного интеллекта, которые лежат в основе таких технологий, обычно обучают на ограниченных наборах данных.

Появление XLS-R в открытом доступе может изменить ситуацию, считают в Facebook. Модель включает более 2 млрд параметров. Для адекватного представления многих языков количество параметров имеет решающее значение – это улучшает производительность и точность распознавания даже сильнее, чем тщательное предварительное обучение на одном языке.

Как устроена XLS-R

Основа модели с самопроверкой – технология wav2vec 2.0. Она умеет анализировать аудиозаписи и определять структуру разговора.

XLS-R получила для обучения 128 языков – это вдвое больше, чем у прошлой модели XLSR-53, представленной год назад. Новое решение обучали на открытых данных: 436 тыс. часов записей речи – от аудиокниг до парламентских заседаний. Это примерно в десять раз превосходит базу предшественницы.

XLS-R успешно протестировали в системах BABEL, CommonVoice и VoxPopuli для распознавания речи, CoVoST-2 по переводу с иностранного языка на английский и VoxLingua107 для определения языка. Это позволило измерить качественные характеристики модели на разных этапах обработки речи и в различных ситуациях.

Разработчики показали результаты тестов для разных языков в системе BABEL. Новая модель ощутимо уменьшила количество ошибок (серым показаны итоги тестирования для прошлогодней XLSR-53, зеленым – для новой XLS-R ):

Масштабирование межъязыкового предварительного обучения модели XLS-R в будущем позволит сделать точнее переводы на редкие языки, например, лаосский, суахили или тагальский. Для них доступно не так много аудиозаписей, а структура речи очень сильно отличается от английского, с которым работает большинство моделей.

В результате подобные решения смогут действительно понимать человеческую речь, переводить не слово в слово, а смысл в смысл – как профессиональные переводчики. В Facebook заявили, что смогут работать с 7 тыс. языков – и это позволит общаться людям из любых уголков планеты.



Источник: https://infostart.ru/journal/news/tekhnologii/iskhodnyy-kod-modeli-facebook-xls-r-vylozhili-v-internet_1593515/
Автор:
Обозреватель


В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также

 «Яндекс» открыл доступ к SmartCaptcha и нейросети по генерации текстов 

Новость ИТ-новость Яндекс

Компания открыла доступ к алгоритму SmartCaptcha, который защищает сайт от спама и DDoS-атак, а также к проекту YaLM 100B, способному писать тексты на английском и русском языках. 

29.06.2022    566    VKuser24342747    0       

«Яндекс» предложил разработчикам пройти диагностику технических навыков

Новость Кадровые агентства, подбор персонала ИТ-новость Яндекс

Компания запустила сервис, при помощи которого можно получить оценку своих технических навыков от специалистов «Яндекса». Тестирование включает онлайн-интервью и решение задач с реальных собеседований. 

27.06.2022    831    VKuser24342747    1       

GitHub открыл доступ всем разработчикам к ИИ-помощнику Copilot по подписке

Новость GitHub Искусственный интеллект ИТ-новость

Github Copilot стал общедоступным, но для его использования пользователю репозитория нужно приобрести подписку. Хотя некоторые разработчики могут пользоваться инструментом бесплатно.

24.06.2022    661    VKuser24342747    1       

В России планируют учредить Федерацию спортивного программирования

Новость ИТ-новость

Минцифры и Минспорта подписали меморандум, в котором закреплено сотрудничество ведомств по развитию в стране спортивного программирования и проведение первого официального чемпионата.

21.06.2022    1159    VKuser24342747    5       

Microsoft окончательно прекратила поддержку Internet Explorer

Новость Интернет ИТ-новость

Microsoft прекратила выпуск обновлений для своего браузера Internet Explorer, а с августа начнет удалять приложение из актуальных версий Windows. Эксперты полагают, что из-за этого пострадает много бизнес-пользователей.

17.06.2022    1392    VKuser24342747    4       

В России начал работу отечественный сервис мониторинга сбоев

Новость Импортозамещение Интернет ИТ-новость

Российская компания BrandAnalytics запустила платформу «Детектор сбоев», предназначенную для отслеживания работоспособности сайтов и сервисов, в том числе русскоязычных.

16.06.2022    802    VKuser24342747    0       

Минцифры запустило систему отслеживания поддельных сайтов

Новость Безопасность Интернет ИТ-новость

Информационная система под названием «Антифишинг» способна обнаруживать мошеннические веб-ресурсы, которые выглядят как официальные сайты госорганов, компаний и соцсетей.

14.06.2022    1331    VKuser24342747    0       

GitHub прекратил поддержку редактора Atom ради перехода на VS Code

Новость GitHub ИТ-новость

GitHub объявил о прекращении разработки редактора кода Atom. К концу года все проекты в этом приложении станут доступны только для чтения. Причина – медленное развитие приложения.

10.06.2022    1200    VKuser24342747    2       

Вышла новая версия открытой операционной системы AlmaLinux 9

Новость Linux ИТ-новость

AlmaLinux – альтернатива CentOS, поддержка которой будет прекращена в 2024 году. В девятой версии ОС добавлено больше инструментов безопасности и обновлена среда разработки приложений.

09.06.2022    2370    VKuser24342747    2       

GitLab представила новый релиз платформы совместной разработки

Новость git ИТ-новость

Вышел релиз ИТ-хостинга для совместной разработки GitLab 15.0. В нем проведена подготовительная работа для перехода на VS Code, а также добавлен расширенный поиск и возможность управлять несколькими итерациями.

01.06.2022    1425    VKuser24342747    2       

Минцифры создаст единую цифровую платформу для акцептования оферт

Новость ИТ-новость Цифровая экономика

Правительство подготовило проект постановления, которое позволяет провести эксперимент по разработке Единой цифровой платформы ведения и акцептования оферт. В тестовом режиме сервис проработает до января 2023 года.

31.05.2022    880    VKuser24342747    0       

VK совместно с Минцифры запустили магазин приложений RuStore

Новость Импортозамещение ИТ-новость Мобильные приложения

Компания начала бета-тестирование официального магазина приложений для Android. В маркетплейсе уже сейчас доступно более ста программ, часть из которых недоступны в Google Play.

27.05.2022    1978    VKuser24342747    5       

В GitHub появилась нативная поддержка математических выражений в md-файлах

Новость GitHub ИТ-новость

Команда GitHub рассказала о новой функции, которая позволяет записывать математические формулы в Markdown. Разработчики впервые попросили добавить эту возможность восемь лет назад.

26.05.2022    1296    VKuser24342747    0       

Национальный удостоверяющий центр наладил выпуск TLS-сертификатов

Новость Безопасность Импортозамещение Интернет ИТ-новость

Национальный удостоверяющий центр (НУЦ) предложил владельцам сайтов получить сертификаты безопасности с поддержкой технологии прозрачности. Они работают в российских браузерах.

25.05.2022    1556    VKuser24342747    1       

Минцифры запустит программу вознаграждения за поиск багов в госсистемах

Новость ИТ-новость

Минцифры анонсировало программу Bug Bounty, в которой смогут принять участие российские хакеры. Специалисты по безопасности будут тестировать государственные системы.

25.05.2022    1960    VKuser24342747    2       

Банк России добавил поддержку NFC-технологии в Систему быстрых платежей

Новость ИТ-новость Мобильные приложения Цифровая экономика

В Системе быстрых платежей (СБП) появилась возможность проводить бесконтактную оплату при помощи NFC-чипов смартфонов. Функция будет доступна при использовании приложения «СБПэй».

20.05.2022    4929    VKuser24342747    4       

В России начал работу отечественный магазин приложений NashStore

Новость Импортозамещение ИТ-новость Мобильные приложения

Приложение-маркетплейс для Android стало доступно для скачивания на официальном сайте. Магазин позиционируется как альтернатива Google Play.

17.05.2022    3520    VKuser24342747    12       

В России создадут единую систему хранения государственных данных

Новость ИТ-новость

Минцифры приступает к разработке ГосДата.хаба, который будет хранить в себе информацию от всех государственных учреждений. В 2024 году проект должен быть полностью реализован, а в 2023 году система будет запущена в опытную эксплуатацию.

16.05.2022    2959    Senator_I    3       

GitHub до конца 2023 года полностью перейдет на двухфакторную аутентификацию

Новость GitHub Безопасность ИТ-новость

Представители ИТ-хостинга GitHub сообщили, что к концу 2023 года активные разработчики, зарегистрированные на платформе, должны подключить функцию двухфакторной аутентификации.

12.05.2022    5677    VKuser24342747    0       

В России создан алгоритм принятия решений о необходимости обновления критичного ПО

Новость Безопасность ИТ-новость

Центр кибербезопасности РФ подготовил рекомендации по обновлению программ, критически важных для бизнеса. Ведомство рассказало, в каких случаях следует избегать автоматического обновления ПО.

21.04.2022    3618    VKuser24342747    0       

ИТ-отрасль представила Минцифры список приоритетных направлений поддержки

Новость ИТ-новость

Минцифры собирает сведения о том, какие российские решения для информационных систем нуждаются в первоочередной поддержке. ИТ-ассоциация представила собственный перечень.

15.04.2022    4240    VKuser24342747    1       

Для TLS 1.3 реализована поддержка российских стандартов шифрования

Новость Безопасность Интернет ИТ-новость

Реализация протокола TLS 1.3 с использованием российских защитных алгоритмов разработана компаниями «Криптонит» и «Криптоком». Применять его можно как расширение для OpenSSL 1.1.1.

16.03.2022    9314    VKuser24342747    1       

В GitHub добавили поддержку диаграмм

Новость GitHub ИТ-новость

В репозиториях сервиса GitHub теперь можно использовать диаграммы Mermaid. Этот формат гипертекстовой разметки легко освоить, чтобы создавать наглядные и аккуратные схемы. Такие изображения будут понятнее ASCII-диаграмм из отдельных символов.

24.02.2022    11530    user1015646    0       

Финализирован список новых возможностей Java 18

Новость ИТ-новость Языки программирования

Намеченный на 22 марта 2022 года релиз Java 18 находится во второй фазе стабилизации. В новой версии языка появится несколько возможностей в виде превью и инкубаторов для тестирования.

14.02.2022    10532    VKuser24342747    2       

В России разработали открытую операционную систему «Фантом» на собственном микроядре

Новость ОС Импортозамещение ИТ-новость

Подавляющее большинство операционных систем, над которыми работают российские компании, создаются на ядре GNU/Linux. Возможно, у них наконец-то появится конкурент: DZ Systems представила ОС «Фантом», микроядро которой написано «с нуля».

02.02.2022    7144    user1015646    2