본문 바로가기

서비스 제작

[RVC] AI 나레이션 커버 테스트

기존에는 RVC 모델을 사용해서 가수의 노래를 다른 목소리로 변환하는데에만 집중했었다. 그리고 AI 노래 커버에 대한 충분한 가능성을 확인할 수 있었다. 여기서 새로운 궁금증이 생겼다. RVC로 나레이션을 다른 목소리로 적용하는 것도 잘되는지 궁금해진 것이다. 그래서 이번에는 RVC 모델이 나레이션으로서의 사용도 가능성에 대해 확인해본다.

실험 설계

간단하게 아래 4개의 경우에 대해서 실험해본다. 일단 체계적인 실험이라기 보다는 가능성에 대한 검증이기 때문에 간단하게 내 귀로 듣는 방식으로 진행한다.

  • 남자 목소리 → 남자 나레이션
  • 남자 목소리 → 여자 나레이션
  • 여자 목소리 → 남자 나레이션
  • 여자 목소리 → 여자 나레이션
구분 모델 유튜브 링크
남자 목소리 모델 이병헌 https://www.youtube.com/watch?v=UNWIuSxcGyk
여자 목소리 모델 한예슬 https://www.youtube.com/watch?v=Dqy4CCujFKQ
남자 나레이션 https://www.youtube.com/watch?v=KN7oF-YcDxM
여자 나레이션 https://www.youtube.com/watch?v=GUO1GUtcZPo

과정

  1. 유튜브에서 영상을 다운받고, 해당 화자의 대화만 음성으로 추출
  2. 목소리 모델을 학습
  3. 나레이션에 목소리 모델을 입힘

첫 결과

구분 결과 음성
남자 목소리 → 남자 나레이션
man_narration_conversion.mp3
6.2 MB
남자 목소리 → 여자 나레이션
woman_narration_conversion.mp3
1.7 MB
여자 목소리 → 남자 나레이션
man_narration_conversion.mp3
6.2 MB
여자 목소리 → 여자 나레이션
woman_narration_conversion.mp3
1.7 MB
  1. 남자 목소리 모델로 나레이션 결과
    • 여자 나레이션으로 변환했을 때는 너무 이상하다. 목소리 변조프로그램을 이용해서 남자 목소리를 여자 목소리로 변환하는 필터를 씌운 느낌이다.
    • 남자 나레이션으로 변환했을 때는 남자 목소리 모델의 음색이 녹아들어있다.
    • 하지만 두 나레이션 모두 기존의 깨끗했던 나레이션에 고저음의 노이즈가 추가되었다.
  2. 여자 목소리 모델로 나레이션 결과
    • 남자 목소리 모델의 결과와 동일하게 남자 나레이션 변환에는 변조프로그램을 쓴 느낌이고, 여자 나레이션 변환에는 음색이 녹아있다.
    • 그러나 이것도 동일하게 나레이션에 고저음의 노이즈가 추가되었다.

결론

어떤 부분이 잘못되었는지 여러 후보군을 생각할 수 있다.

  • 목소리 모델 학습을 위한 음성의 퀄리티의 문제일 수 있다. 가져온 음성들이 화자의 목소리만 있는 것이 아닌 여러 사람의 목소리가 들어간 부분. 그리고 배경음악과 다양한 생활소음, 노이즈가 있었기 때문일 수 있다. 또는 음성의 양이 부족했을 수도 있다.(이 문제의 가능성이 가장 큰 듯 하다.)
  • 목소리 모델 학습 또는 목소리 모델로 커버 음성을 만들 때의 모델의 부족함일 수 있다. 이는 기존의 모델이 AI 커버 노래를 만들기 위한 모델이었기 때문에 나레이션에는 적합하지 않을 수 있다.

문제 후보군을 통해 앞으로의 해결 방안을 생각해보았다.

  1. 목소리 모델 학습 또는 목소리 커버시에 다양한 하이퍼파라미터를 조절해 볼 수 있다.
  2. 목소리 모델 학습 음성을 깨끗한 음성과 충분한 길이의 음성으로 적용시켜본다.

다음 포스팅에서는 도출된 해결방안으로 새롭게 실험을 해볼 예정이다.