본문 바로가기

서비스 제작

[RVC] AI 나레이션 커버 테스트 (목소리 모델 학습 음성이 커버 음성 결과에 미치는 영향)

기존에는 RVC 모델을 사용해서 가수의 노래를 다른 목소리로 변환하는데에만 집중했었다. 그리고 AI 노래 커버에 대한 충분한 가능성을 확인할 수 있었다. 여기서 새로운 궁금증이 생겼다. RVC로 나레이션을 다른 목소리로 적용하는 것도 잘되는지 궁금해진 것이다. 그래서 이번에는 저번 RVC 모델 나레이션 테스트의 결과에서 나온 예상되는 문제점과 해결책을 기반으로 실험을 해보려고 한다.

저번 실험은 여기서 확인하실 수 있습니다.

저번 실험 결과

저번 실험 결과를 요약하면 아래와 같다.

  • 남자와 여자 목소리 모델 모두, 다른 성별의 나레이션으로 변환 시 부자연스러운 변조 느낌이 있음.
  • 동일 성별의 나레이션 변환 시, 어느정도 목소리 모델의 음색이 담겨져있음.
  • 전체적으로 고저음의 노이즈가 추가됨.

아래와 같은 문제 후보군을 생각할 수 있다.

  • 음성 데이터의 문제:
    • 여러 사람의 목소리, 배경음악, 생활소음 등으로 인한 낮은 퀄리티.
    • 음성 데이터 양의 부족 가능성.
  • 모델의 한계:
    • AI 커버 노래용 모델이 나레이션에 적합하지 않음.

예상 해결 방안을 생각해보았다.

  1. 목소리 모델 학습 또는 목소리 커버시에 다양한 하이퍼파라미터를 조절해 볼 수 있다.
  2. 목소리 모델 학습 음성을 깨끗한 음성과 충분한 길이의 음성으로 적용시켜본다.

그래서 여기서는 먼저 2번 목소리 모델 학습 음성이 커버 음성 결과에 미치는 영향에 대한 실험을 진행해본다.


RVC 모델을 활용한 나레이션 변환 실험 보고서(목소리 모델 학습 음성이 커버 음성 결과에 미치는 영향)

1. 서론

본 보고서는 RVC 모델을 활용한 나레이션 변환 실험 계획을 제시한다. 이전 연구 결과를 바탕으로 목소리 모델 학습 음성의 변수가 커버 음성 결과에 미치는 영향을 분석하는 것을 목표로 한다.

2. 배경

RVC 모델은 AI 노래 커버를 위해 개발되었으나, 나레이션 변환에도 활용될 가능성이 있다. 이전 연구에서 RVC 모델을 사용하여 나레이션을 변환한 결과, 다음과 같은 문제점이 발견되었다.

  • 남자와 여자 목소리 모델 모두, 다른 성별의 나레이션으로 변환 시 부자연스러운 변조 느낌이 있음
  • 동일 성별의 나레이션 변환 시, 어느정도 목소리 모델의 음색이 담겨져 있음
  • 전체적으로 고저음의 노이즈가 추가됨

위와 같은 문제점을 해결하기 위해, 본 연구에서는 목소리 모델 학습 음성의 길이, 노이즈 크기, 다양성, 품질, 균형 등의 변수가 변환 결과에 미치는 영향을 분석하는 실험을 진행한다.

3. 연구 목표

본 연구의 주요 목표는 다음과 같다.

  • 음성 길이, 노이즈 크기가 RVC 모델 학습 및 나레이션 변환 결과에 미치는 영향 분석
  • 변수 조절을 통한 나레이션 변환 품질 향상 방안 도출

4. 연구 방법

4.1 실험 설계

  • 제어 변수
    • 음성 모델(실험자의 목소리로 진행)
    • 변환 대상 나레이션: 남성과 여성 나레이션 샘플 음성으로 진행
  • 변수:
    • 음성 길이: 짧음 (5분), 보통 (10분), 길음 (30분)
    • 음성 노이즈 크기: 없음, 낮음, 보통, 높음

4.2 실험 절차

  1. 다양한 변수에 따라 음성 데이터 수집 및 가공
  2. RVC 모델 학습
  3. 변환 대상 나레이션에 대한 변환 수행
  4. 변환 결과 평가 및 분석

4.3 평가 지표

  • 주관적 지표:
    • 화이트 노이즈 정도
    • 부자연스런 기계음 정도
    • 자연스러움
    • 목소리 모델 음색 반영 정도
    • 변환된 음성 만족도

5. 결과 및 분석

1~5점 사이의 점수로 평가한다.

  • 1: 매우 불만족
  • 2: 불만족
  • 3: 보통
  • 4: 만족
  • 5: 매우 만족

5.1 전체 결과

음성 길이 노이즈 화이트 노이즈 정도(높을수록 적음) 부자연스런 기계음 정도(높을수록 적음) 자연스러움 목소리 모델 음색 반영 정도 변환된 음성 만족도
짧음(5분) 없음 2 2 2 2 2
낮음 1 1 2 2 1
보통 1 1 2 2 1
높음 1 1 2 2 1
보통(10분) 없음 2 3 3 3 2.5
낮음 1 1 3 3 1
보통 1 1 3 3 1
높음 1 1 3 3 1
길음(30분) 없음 2.5 2.5 3 3 2.5
낮음 1 1 3 3 1
보통 1 1 3 3 1
높음 1 1 3 3 1

5.2 음성 길이의 영향

음성 길이 화이트 노이즈 정도(높을수록 적음) 부자연스런 기계음 정도(높을수록 적음) 자연스러움 목소리 모델 음색 반영 정도 변환된 음성 만족도
짧음(5분) 1.25 1.25 2 2 1.25
보통(10분) 1.25 1.5 3 3 1.375
길음(30분) 1.375 1.375 3 3 1.375
  • 화이트 노이즈 정도
    • 음성 길이가 짧을 때보다는 길 때 화이트 노이즈 정도가 다소 낮아지는 것으로 보인다. 하지만, 전반적으로 큰 차이는 없다.
  • 부자연스런 기계음 정도
    • 10분 길이의 음성이 가장 낮은 부자연스런 기계음을 나타낸다. 하지만 전체적으로 부자연스런 기계음은 음성 길이에 크게 영향을 받지 않는 양상을 보입니다.
  • 자연스러움
    • 음성 길이가 늘어남에 따라 자연스러움이 개선되는 경향을 보인다. 특히, 보통 길이와 길음의 길이는 동일한 높은 자연스러움을 보여줍니다.
  • 목소리 모델 음색 반영 정도
    • 음성 길이가 보통(10분) 이상일 때 목소리 모델의 음색이 더 잘 반영되는 경향을 보입니다.
  • 변환된 음성 만족도
    • 전반적으로 변환된 음성에 대한 만족도는 음성 길이가 길어질수록 약간 개선되는 양상을 보인다. 그러나 여전히 만족도가 높은 수준에 이르지는 않습니다.

5.3 노이즈의 영향

노이즈 화이트 노이즈 정도(높을수록 적음) 부자연스런 기계음 정도(높을수록 적음) 자연스러움 목소리 모델 음색 반영 정도 변환된 음성 만족도
없음 2.17 2.50 2.67 2.50 2.33
낮음 1.0 1.0 2.67 2.67 1.0
보통 1.0 1.0 2.67 2.67 1.0
높음 1.0 1.0 2.67 2.67 1.0
  • 화이트 노이즈 정도
    • 노이즈가 없는 경우가 확연히 우수하며, 노이즈가 조금이라도 있는 경우는 화이트 노이즈 정도가 크게 나타난다.
  • 부자연스런 기계음 정도
    • 노이즈가 없는 경우가 가장 좋았으며, 노이즈가 조금이라도 있을 때는 부자연스런 기계음이 나타난다.
  • 자연스러움
    • 노이즈의 유무는 크게 영향을 미치지 않았습니다. 모든 수준에서 비슷한 자연스러움을 보였다.
  • 목소리 모델 음색 반영 정도
    • 노이즈 유무와 상관 없이, 낮음, 보통, 높음 등의 모든 상황에서 비슷한 수준을 보였습니다.
  • 변환된 음성 만족도
    • 노이즈가 없는 경우가 가장 높은 만족도를 보였음에도 보통이 안되는 수준이었으며, 노이즈가 있는 경우의 만족도는 크게 떨어졌습니다.

5.4 전체적인 분석

  1. 음성이 길어질수록 화이트 노이즈와 부자연스러운 기계음은 약간 개선되는 경향을 보이나 크게 차이는 없다. 이를 보았을 때 녹음된 음성의 품질이 크게 영향을 준다고 예측된다.
  2. 자연스러움과 목소리 모델의 음색 반영 정도는 음성이 보통 길이(10분) 이상일 때 개선되며, 변환된 음성의 만족도도 길어질수록 약간씩 향상되는 양상을 보인다.
  3. 노이즈의 유무에 따른 분석에서는, 노이즈가 없는 경우가 화이트 노이즈 정도와 부자연스러운 기계음, 전반 만족도에서 가장 좋은 결과를 보인다.
  4. 노이즈의 유무는 자연스러움과 목소리 모델 음색 반영 정도에는 큰 영향을 미치지 않으며, 변환된 음성 만족도에서도 노이즈가 있을 때 크게 저하되는 모습을 보인다.

6. 결론

6.1 결론

  1. 10분 이상의 음성 길이 조건만 만족하면 그 이후에는 크게 상관이 없다.
  2. 음성의 품질은 생성된 음성의 노이즈에 매우 큰 역할을 한다. 특히 노이즈가 거의 없는 환경을 만들어야한다.
  3. 학습 음성의 길이나 노이즈의 크기에 상관없이 본인의 키와 다른 음성에 대해서는 매우 부자연스럽고, 기계음이 증폭된다. 이는 본인의 음성 키와 나레이션 음성의 키가 크게 다를경우 잘 적용되지 않음을 의미한다.

6.2 Future Works

  1. 녹음된 음성에도 뒤에 백색 소음이 섞여있음을 알 수 있다. 즉, 조용한 환경에서 녹음을 하였으나 기기의 한계와 녹음하는 장소, 자연스러움 생활 소음등에 의하여 뒤에 소음이 섞여들어갔다. 따라서 녹음이후 여러 필터를 적용하여 최대한 화자의 목소리만 살리고, 소음은 제거하는 방식을 탐구해볼 필요가 있다.
  2. 화자의 키와 나레이션의 키가 다른 경우에는 매우 부자연스럽다. 이는 모델 학습 단계보다는 커버 생성 단계에서 여러 하이퍼파라미터를 조절해가며 테스트해볼 필요가 있다.

7. 부록

7.1 상세 실험 과정 및 환경

목소리 음성 녹음

일단 목소리 모델은 실험자(최성범)로 진행한다. 목소리 모델 음성 녹음은 3가지 전문을 사용하여 각각 5, 10, 15분의 음성을 녹음한다.

운수좋은날 녹음 스크립트(5분) 메밀꽃 필 무렵 녹음 스크립트(10분) 동백꽃 녹음 스크립트(15분)
운수좋은날_녹음_스크립트(5분).txt
4.7 kB
메밀꽃_필_무렵_녹음_스크립트(10분).txt
9.5 kB
동백꽃_녹음_스크립트(15분).txt
14.4 kB

노이즈 추가

화이트 가우시안 노이즈(평균이 0, 분산이 1인 정규분포 노이즈를 추가)를 사용한다.

노이즈 크기

noise factor를 이용하여 noise의 정도를 정한다. noise factor는 노이즈 값에 곱해지는 weight값이다.

  • 낮음: 0.0005
  • 보통: 0.001
  • 높음: 0.005

녹음 환경

  • 일시: 2024.06.04 17시경
  • 장소: 우리 집
  • 녹음 기기: 로지텍 웹캠 C920 HD Pro
  • 화자: 최성범

7.2 실험 음성 파일

녹음 음성 파일

운수좋은날 녹음 음성 메밀꽃 필 무렵 녹음 음성 동백꽃 녹음 음성
운수좋은날_최성범.mp3
6.4 MB
메밀꽃필무렵_최성범.mp3
12.9 MB
동백꽃_최성범.mp3
19.6 MB

나레이션 샘플 음성

남성 나레이션 여성 나레이션
man_narration.mp3
3.1 MB
woman_narration.mp3
842.2 kB

생성된 나레이션 커버 음성

음성 길이 노이즈 남성 나레이션 음성 파일 여성 나레이션 음성 파일
짧음(5분) 없음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
낮음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
보통
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
높음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
보통(10분) 없음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
낮음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
보통
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
높음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
길음(30분) 없음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
낮음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
보통
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB
높음
man_narration.mp3
6.2 MB
woman_narration.mp3
1.7 MB