Искусственный интеллект Microsoft создает реалистичные голоса, используя всего 200 обучающих образцов

Искусственный интеллект Microsoft создает реалистичные голоса, используя всего 200 обучающих образцов

Современные алгоритмы преобразования текста в речь обладают удивительными возможностями. Самым ярким доказательством являются два инструмента с открытым исходным кодом под названием SpecAugment и Translatotron, недавно выпущенные Google. В частности, Транслатотрон может полностью перевести речь человека непосредственно на другой язык, сохраняя при этом тон и интонацию предложения. Однако творчество в технологиях безгранично и всегда есть место для более неординарных вещей.

Искусственный интеллект Microsoft создает реалистичные голоса, используя всего 200 обучающих образцов

Исследователи искусственного интеллекта из Microsoft недавно представили статью под названием «Почти неконтролируемое преобразование текста в речь и автоматическое распознавание речи», в которой подробно описана система ИИ, использующая обучение без учителя. из немаркированных, классифицированных и неформатированных тестовых данных. Эта система искусственного интеллекта от Microsoft произвела большой фурор, когда достигла точности понимания прочитанного и обработки текста до 99,84%, и в то же время способность автоматической симуляции речи также была улучшена до 11,7%. Еще более впечатляюще то, что этой продвинутой модели машинного обучения необходимо использовать всего 200 аудиоклипов и соответствующие транскрипции в качестве входных данных для обучения.

Ключом к разработке этой модели ИИ являются Трансформеры, тип нейронной архитектуры, созданный группой ученых из Google Brain, исследовательского подразделения Google в области искусственного интеллекта, и представленный в подробной технологической статье в 2017 году. Как и все глубокие нейронные сети, Трансформеры содержат нейроны (математические функции, которые «свободно» моделируются биологическими нейронами) организованы в взаимосвязанные слои для передачи «сигналов» из входных данных и постепенного регулирования синаптической силы — веса — каждого соединения (именно так модели извлекают особенности и учатся делать предсказания). Однако Трансформеры обладают и уникальной особенностью: каждый выходной элемент будет связан со всеми входными элементами, а веса между ними рассчитываются чрезвычайно гибко.

Искусственный интеллект Microsoft создает реалистичные голоса, используя всего 200 обучающих образцов

Исходя из этой реальности, исследователи Microsoft приступили к включению компонента Transformer в свою систему искусственного интеллекта, позволяющего получать речь или текст в качестве входных или выходных данных. И в качестве обучающих данных для системы ИИ исследователи решили взять общедоступный источник данных LJSpeech — который содержит 13 100 аудиоотрывков на английском языке и соответствующие расшифровки (транскрипты). Затем исследовательская группа случайным образом выбрала 200 из 13 100 аудиофрагментов, упомянутых выше, для создания набора обучающих данных, а также воспользовалась компонентом автоматического шумоподавления для восстановления данных.Речевая и текстовая структуры были нарушены.

Результаты совсем неплохие. Просматривая каждый небольшой фрагмент, исследователи обнаружили, что он дает лучшие результаты, чем базовые алгоритмы, использованные в тестах. И некоторые из полученных сэмплов звучат так, будто они были созданы людьми.

Например, предложение: «формы печатных букв должны быть красивыми, а их расположение на странице должно быть разумным и способствовать стройности самих букв» можно было бы прочитать так:

Или предложение: «тем более, что больше не требуется времени или затрат на отливку оправы или печать красивых букв»:

В дальнейшем цель исследователей — расширить границы технологии обучения без присмотра, полностью используя непарные текстовые и речевые данные с помощью передовых методов. «Для этой задачи мы предложили почти неконтролируемый подход к преобразованию текста в речь и автоматическому распознаванию речи, который использует только несколько объединенных текстовых и речевых данных, а также небольшое количество дополнительных несвязанных данных. Как показали эксперименты, наши компоненты проектирования будут необходимы для развития способности преобразовывать речь и текст с некоторыми объединенными данными.

Подробности этого проекта будут представлены Microsoft на Международной конференции по машинному обучению, проходящей в Лонг-Бич, Калифорния, с 10 по 15 июня, а исследовательская группа также планирует выпустить Open Source в ближайшие недели.


Рабочая группа ChatGPT будет создана Европой

Рабочая группа ChatGPT будет создана Европой

Орган, объединяющий европейских национальных наблюдателей за конфиденциальностью, заявил в четверг, что создал целевую группу, посвященную ChatGPT.

ИИ предсказывает время смерти человека с точностью 78%

ИИ предсказывает время смерти человека с точностью 78%

Датские и американские учёные совместно разработали систему искусственного интеллекта под названием life2vec, способную с высокой точностью предсказывать время смерти человека.

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

ИИ предсказывает заболевания мочевыводящих путей только по звуку мочи

Алгоритм искусственного интеллекта под названием Audioflow может прослушивать звук мочеиспускания, чтобы эффективно и успешно идентифицировать аномальные выделения и соответствующие проблемы со здоровьем пациента.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Бармены, будьте осторожны: этот робот может приготовить коктейль всего за 1 минуту.

Старение и сокращение населения Японии привело к тому, что в стране не хватает значительного числа молодых работников, особенно в сфере услуг.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Сотни людей разочаровались, когда узнали, что девушка, которую они любили, была продуктом искусственного интеллекта.

Пользователь Reddit под ником u/LegalBeagle1966 — один из многих пользователей, влюбленных в Клаудию, девушку, похожую на кинозвезду, которая часто делится на этой платформе соблазнительными селфи, даже обнаженными.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Еще 12 потенциальных компаний присоединяются к «ИИ-альянсу» Microsoft.

Microsoft только что объявила, что еще 12 технологических компаний примут участие в ее программе AI for Good.

ИИ воссоздает персонажей Dragon Ball из плоти и крови

ИИ воссоздает персонажей Dragon Ball из плоти и крови

Пользователь @mortecouille92 применил возможности инструмента графического дизайна Midjourney и создал уникальные реалистичные версии знаменитых персонажей Dragon Ball, таких как Гоку, Вегета, Булма и старший Каме.

7 методов улучшения ответов ChatGPT

7 методов улучшения ответов ChatGPT

Просто добавив некоторые условия или настроив несколько сценариев, ChatGPT может дать более релевантные ответы на ваши запросы. Давайте посмотрим, как можно улучшить качество ответов ChatGPT.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Полюбуйтесь прекрасными картинами, нарисованными искусственным интеллектом.

Midjourney — это система искусственного интеллекта, которая в последнее время вызвала «лихорадку» в онлайн-сообществе и мире художников из-за своих чрезвычайно красивых картин, не уступающих работам настоящих художников.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Эта модель ИИ была одним из первых «экспертов», обнаруживших новости о вспышке уханьской пневмонии.

Через несколько дней после того, как Китай объявил о вспышке, имея доступ к глобальным данным о продажах авиабилетов, система искусственного интеллекта BlueDot продолжала точно предсказывать распространение вируса уханьской короны в Бангкоке, Сеуле, Тайбэе и Токио.