Microsoft의 AI는 단 200개의 훈련 샘플로 현실적인 음성을 생성합니다.

Microsoft의 AI는 단 200개의 훈련 샘플로 현실적인 음성을 생성합니다.

현대의 텍스트 음성 변환 알고리즘은 놀라운 기능을 가지고 있습니다. 가장 명확한 증거는 Google이 최근 출시한 SpecAugment와 Translatotron이라는 두 가지 오픈 소스 도구입니다. 특히, Translatotron은 문장의 어조와 억양을 그대로 유지하면서 사람의 말을 다른 언어로 직접 완벽하게 번역할 수 있습니다. 그러나 기술의 창의성에는 한계가 없으며 항상 더 놀라운 일을 할 수 있는 여지가 있습니다.

Microsoft의 AI는 단 200개의 훈련 샘플로 현실적인 음성을 생성합니다.

마이크로소프트 인공지능 연구자들은 최근 비지도 학습을 활용하는 AI 시스템을 자세히 설명하는 “거의 비지도 텍스트 음성 변환 및 자동 음성 인식”이라는 제목의 논문을 발표했습니다. 레이블이 지정되지 않은, 분류된, 형식이 지정되지 않은 테스트 데이터에서. 마이크로소프트의 이 AI 시스템은 독해력과 워드 프로세싱 정확도를 최대 99.84% 달성하는 동시에 자동 음성 시뮬레이션 능력도 11.7%까지 향상해 큰 화제를 모았다. 더욱 인상적인 것은 이 고급 기계 학습 모델이 200개의 오디오 클립과 해당 텍스트 변환만 입력 훈련 데이터로 사용하면 된다는 것입니다.

이 AI 모델 개발의 핵심은 구글의 AI 연구 부문인 구글 브레인(Google Brain)의 과학자 팀이 구축한 신경 아키텍처의 일종인 트랜스포머(Transformers)로, 2017년 심층 기술 기사에 소개됐다. 모든 심층 신경망과 마찬가지로 트랜스포머도 뉴런(생물학적 뉴런에 의해 "느슨하게" 모델링된 수학적 함수)은 상호 연결된 레이어에 배열되어 입력 데이터에서 "신호"를 전송하고 각 연결의 시냅스 강도(가중치)를 점진적으로 조정합니다(이것이 모델이 특징을 추출하고 학습하는 방법입니다). 예상하다). 그러나 Transformer에는 고유한 기능도 있습니다. 모든 출력 요소가 모든 입력 요소에 연결되고 이들 사이의 가중치가 매우 유연하게 계산됩니다.

Microsoft의 AI는 단 200개의 훈련 샘플로 현실적인 음성을 생성합니다.

이러한 현실에서 Microsoft 연구원들은 Transformer 구성 요소를 AI 시스템 설계에 통합하여 음성이나 텍스트를 입력 또는 출력 데이터로 수신할 수 있게 되었습니다. 그리고 연구원들은 13,100개의 영어 오디오 발췌문과 해당 사본(대본)이 포함된 공개적으로 사용 가능한 LJSpeech 데이터 소스를 AI 시스템의 훈련 데이터로 사용하기로 결정했습니다. 다음으로, 연구팀은 위에서 언급한 13,100개의 오디오 발췌문 중 무작위로 200개를 선택하여 훈련 데이터 세트를 생성했으며, 자동 노이즈 제거 인코딩 구성 요소를 활용하여 데이터를 재구성했습니다. 음성 및 텍스트 구조가 깨졌습니다.

결과는 전혀 나쁘지 않습니다. 각각의 작은 조각을 살펴보면서 연구원들은 테스트에 사용된 기본 알고리즘보다 더 나은 결과를 제공한다는 것을 발견했습니다. 그리고 결과 샘플 중 일부는 인간이 만든 것과 거의 비슷하게 들립니다.

예를 들어, "인쇄된 글자의 형태는 아름다워야 하며, 페이지에서의 배열이 합리적이어야 하며 글자 자체의 형태에 도움이 되어야 합니다"라는 문장은 다음과 같이 읽힐 수 있습니다.

또는 다음 문장: "특히 아름다운 글자를 주조하거나 인쇄하는 데 더 이상 시간이 걸리거나 비용이 들지 않습니다."

앞으로 연구원들의 목표는 고급 방법의 도움으로 짝이 없는 텍스트와 음성 데이터를 완전히 활용하여 비지도 학습 기술의 한계를 뛰어넘는 것입니다. “이 작업을 위해 우리는 연결된 텍스트 몇 개와 연결된 음성 데이터와 연결되지 않은 소량의 추가 데이터만 사용하는 텍스트 음성 변환 및 자동 음성 인식을 위한 거의 비지도 방식의 접근 방식을 제안했습니다. 실험에서 입증된 바와 같이, 우리의 디자인 구성 요소는 일부 연결된 데이터를 사용하여 음성과 텍스트를 변환하는 기능을 개발하는 데 필수적입니다.

이 프로젝트의 세부 사항은 6월 10일부터 15일까지 캘리포니아 롱비치에서 열리는 기계 학습에 관한 국제 컨퍼런스에서 마이크로소프트가 발표할 예정이며, 연구팀은 앞으로 몇 주 안에 오픈 소스 출시도 계획하고 있습니다.


ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.

유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.

AI는 78% 정확도로 인간 사망 시간 예측

AI는 78% 정확도로 인간 사망 시간 예측

덴마크와 미국 과학자들이 인간의 사망 시간을 높은 정확도로 예측할 수 있는 life2vec이라는 AI 시스템을 개발하기 위해 협력했습니다.

AI가 소변소리만으로 요로질환을 예측한다

AI가 소변소리만으로 요로질환을 예측한다

오디오플로우(Audioflow)라는 AI 알고리즘은 배뇨 소리를 듣고 환자의 비정상적인 흐름과 이에 따른 건강 문제를 효과적이고 성공적으로 식별할 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

바텐더 여러분, 조심하세요: 이 로봇은 단 1분 만에 칵테일을 만들 수 있습니다.

일본의 인구 노령화와 감소로 인해 특히 서비스 부문에서 상당한 수의 젊은 근로자가 부족해졌습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

수백 명의 사람들은 자신이 사랑했던 소녀가 AI의 산물이라는 사실을 알고 환멸을 느꼈습니다.

u/LegalBeagle1966이라는 Reddit 사용자는 이 플랫폼에서 매혹적인 셀카, 심지어 누드 셀카까지 자주 공유하는 영화배우 같은 소녀인 Claudia에 매료된 많은 사용자 중 한 명입니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

12개의 잠재적인 기업이 Microsoft의 AI 동맹에 합류했습니다.

Microsoft는 최근 12개의 기술 회사가 AI for Good 프로그램에 참여할 것이라고 발표했습니다.

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

AI가 드래곤볼 캐릭터를 살과 피로 재현합니다

사용자 @mortecouille92는 그래픽 디자인 도구 Midjourney의 강력한 기능을 활용하여 Goku, Vegeta, Bulma 및 Elder Kame과 같은 유명한 Dragon Ball 캐릭터의 독특하고 사실적인 버전을 만들었습니다. .

ChatGPT 응답을 개선하는 7가지 기술

ChatGPT 응답을 개선하는 7가지 기술

몇 가지 조건을 추가하거나 몇 가지 시나리오를 설정하는 것만으로도 ChatGPT는 쿼리에 대해 보다 관련성 높은 답변을 제공할 수 있습니다. ChatGPT 응답의 품질을 향상할 수 있는 몇 가지 방법을 살펴보겠습니다.

인공지능이 그린 아름다운 그림에 감탄해보세요

인공지능이 그린 아름다운 그림에 감탄해보세요

미드저니(Midjourney)는 실제 작가들의 그림에 뒤지지 않을 만큼 아름다운 그림들로 최근 온라인 커뮤니티와 화가계에 '열풍'을 일으키고 있는 인공지능 시스템이다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

이 AI 모델은 우한 폐렴 발생에 대한 뉴스를 발견한 최초의 전문가 중 하나였습니다.

중국이 발병을 발표한 지 며칠 후, BlueDot의 AI 시스템은 전 세계 항공권 판매 데이터에 액세스하여 우한 코로나 바이러스가 방콕, 서울, 타이베이, 도쿄로 확산되는 것을 계속해서 정확하게 예측했습니다.