Microsoft의 AI는 단 200개의 훈련 샘플로 현실적인 음성을 생성합니다.

현대의 텍스트 음성 변환 알고리즘은 놀라운 기능을 가지고 있습니다. 가장 명확한 증거는 Google이 최근 출시한 SpecAugment와 Translatotron이라는 두 가지 오픈 소스 도구입니다. 특히, Translatotron은 문장의 어조와 억양을 그대로 유지하면서 사람의 말을 다른 언어로 직접 완벽하게 번역할 수 있습니다. 그러나 기술의 창의성에는 한계가 없으며 항상 더 놀라운 일을 할 수 있는 여지가 있습니다.

Amazon의 AI 시스템은 Alexa의 음성 인식 오류를 15% 줄이는 데 도움이 됩니다.

마이크로소프트 인공지능 연구자들은 최근 비지도 학습을 활용하는 AI 시스템을 자세히 설명하는 “거의 비지도 텍스트 음성 변환 및 자동 음성 인식”이라는 제목의 논문을 발표했습니다. 레이블이 지정되지 않은, 분류된, 형식이 지정되지 않은 테스트 데이터에서. 마이크로소프트의 이 AI 시스템은 독해력과 워드 프로세싱 정확도를 최대 99.84% 달성하는 동시에 자동 음성 시뮬레이션 능력도 11.7%까지 향상해 큰 화제를 모았다. 더욱 인상적인 것은 이 고급 기계 학습 모델이 200개의 오디오 클립과 해당 텍스트 변환만 입력 훈련 데이터로 사용하면 된다는 것입니다.

이 AI 모델 개발의 핵심은 구글의 AI 연구 부문인 구글 브레인(Google Brain)의 과학자 팀이 구축한 신경 아키텍처의 일종인 트랜스포머(Transformers)로, 2017년 심층 기술 기사에 소개됐다. 모든 심층 신경망과 마찬가지로 트랜스포머도 뉴런(생물학적 뉴런에 의해 "느슨하게" 모델링된 수학적 함수)은 상호 연결된 레이어에 배열되어 입력 데이터에서 "신호"를 전송하고 각 연결의 시냅스 강도(가중치)를 점진적으로 조정합니다(이것이 모델이 특징을 추출하고 학습하는 방법입니다). 예상하다). 그러나 Transformer에는 고유한 기능도 있습니다. 모든 출력 요소가 모든 입력 요소에 연결되고 이들 사이의 가중치가 매우 유연하게 계산됩니다.

Microsoft의 AI는 단 200개의 훈련 샘플로 현실적인 음성을 생성합니다.

MIT, 거의 인간처럼 운전할 수 있는 AI 모델 개발 노력

이러한 현실에서 Microsoft 연구원들은 Transformer 구성 요소를 AI 시스템 설계에 통합하여 음성이나 텍스트를 입력 또는 출력 데이터로 수신할 수 있게 되었습니다. 그리고 연구원들은 13,100개의 영어 오디오 발췌문과 해당 사본(대본)이 포함된 공개적으로 사용 가능한 LJSpeech 데이터 소스를 AI 시스템의 훈련 데이터로 사용하기로 결정했습니다. 다음으로, 연구팀은 위에서 언급한 13,100개의 오디오 발췌문 중 무작위로 200개를 선택하여 훈련 데이터 세트를 생성했으며, 자동 노이즈 제거 인코딩 구성 요소를 활용하여 데이터를 재구성했습니다. 음성 및 텍스트 구조가 깨졌습니다.

결과는 전혀 나쁘지 않습니다. 각각의 작은 조각을 살펴보면서 연구원들은 테스트에 사용된 기본 알고리즘보다 더 나은 결과를 제공한다는 것을 발견했습니다. 그리고 결과 샘플 중 일부는 인간이 만든 것과 거의 비슷하게 들립니다.

예를 들어, "인쇄된 글자의 형태는 아름다워야 하며, 페이지에서의 배열이 합리적이어야 하며 글자 자체의 형태에 도움이 되어야 합니다"라는 문장은 다음과 같이 읽힐 수 있습니다.

또는 다음 문장: "특히 아름다운 글자를 주조하거나 인쇄하는 데 더 이상 시간이 걸리거나 비용이 들지 않습니다."

일본의 인공지능이 초현실적인 가상 패션모델을 만들어냈습니다.

앞으로 연구원들의 목표는 고급 방법의 도움으로 짝이 없는 텍스트와 음성 데이터를 완전히 활용하여 비지도 학습 기술의 한계를 뛰어넘는 것입니다. “이 작업을 위해 우리는 연결된 텍스트 몇 개와 연결된 음성 데이터와 연결되지 않은 소량의 추가 데이터만 사용하는 텍스트 음성 변환 및 자동 음성 인식을 위한 거의 비지도 방식의 접근 방식을 제안했습니다. 실험에서 입증된 바와 같이, 우리의 디자인 구성 요소는 일부 연결된 데이터를 사용하여 음성과 텍스트를 변환하는 기능을 개발하는 데 필수적입니다.