본문 바로가기

전체 글

(48)
[RVC] AI 나레이션 커버 테스트 (목소리 모델 학습 음성이 커버 음성 결과에 미치는 영향) 기존에는 RVC 모델을 사용해서 가수의 노래를 다른 목소리로 변환하는데에만 집중했었다. 그리고 AI 노래 커버에 대한 충분한 가능성을 확인할 수 있었다. 여기서 새로운 궁금증이 생겼다. RVC로 나레이션을 다른 목소리로 적용하는 것도 잘되는지 궁금해진 것이다. 그래서 이번에는 저번 RVC 모델 나레이션 테스트의 결과에서 나온 예상되는 문제점과 해결책을 기반으로 실험을 해보려고 한다.저번 실험은 여기서 확인하실 수 있습니다.저번 실험 결과저번 실험 결과를 요약하면 아래와 같다.남자와 여자 목소리 모델 모두, 다른 성별의 나레이션으로 변환 시 부자연스러운 변조 느낌이 있음.동일 성별의 나레이션 변환 시, 어느정도 목소리 모델의 음색이 담겨져있음.전체적으로 고저음의 노이즈가 추가됨.아래와 같은 문제 후보군을 ..
[RVC] AI 나레이션 커버 테스트 기존에는 RVC 모델을 사용해서 가수의 노래를 다른 목소리로 변환하는데에만 집중했었다. 그리고 AI 노래 커버에 대한 충분한 가능성을 확인할 수 있었다. 여기서 새로운 궁금증이 생겼다. RVC로 나레이션을 다른 목소리로 적용하는 것도 잘되는지 궁금해진 것이다. 그래서 이번에는 RVC 모델이 나레이션으로서의 사용도 가능성에 대해 확인해본다.실험 설계간단하게 아래 4개의 경우에 대해서 실험해본다. 일단 체계적인 실험이라기 보다는 가능성에 대한 검증이기 때문에 간단하게 내 귀로 듣는 방식으로 진행한다.남자 목소리 → 남자 나레이션남자 목소리 → 여자 나레이션여자 목소리 → 남자 나레이션여자 목소리 → 여자 나레이션구분모델유튜브 링크남자 목소리 모델이병헌https://www.youtube.com/watch?v=..
역함수와 역행렬로 딥러닝의 결과로부터 입력 복원하기 읽으시기 전에…수학, AI에 대한 지식이 많이 부족한 상태에서 작성한 글이고, 사실관계와는 상관없이 생각을 정리한 글이기 때문에 틀린 내용이 있을 수 있습니다. 틀린 내용이 많더라도 너그럽게 봐주시고, 귀여운 개발자의 글로 생각해주시면 감사하겠습니다. 댓글로 내용에 대한 지적, 피드백 해주셔도 좋습니다🙂딥러닝 모델에서 출력으로 입력 복원이 가능할까?처음 생각은 LLM와 이미지 생성 모델로부터 였다. LLM와 이미지 생성 모델의 결과를 잘 뽑기 위해서는 좋은 프롬프트를 넣는 것이 중요하다고 한다. 그러면 결과로부터 프롬프트를 복원할 수 있다면 어떤 프롬프트를 넣어야 원하는 결과가 나오는 지 이해가 가능하다고 생각했다. 조금 더 확장하여 딥러닝 모델에서 결과로부터 입력을 추출할 수 있다면 black box..
[기획자 구인 과정] AI 커버곡 제작 웹 서비스 기획자 구하기 사이드 프로젝트로 내 목소리로 AI 커버곡 제작 웹 서비스를 제작하고 있다. 개발에서 프론트엔드, 백엔드, AI 사이드는 혼자서 진행을 한다. 디자이너분도 최근에 구했다. 하지만 디자이너분과 경쟁사 서비스를 확인해본 결과 우리만의 차별점이 필요하다는 결론이 나왔다. 처음에는 내 목소리를 이용하여 AI 커버곡을 제작하는 웹 사이트로 시작하려 했으나 추가적인 차별점 기획을 위한 기획자가 필요하다는 결론이 나왔다. 이에 따라 기획자분도 한 분을 구인하는 방향으로 진행하기로 했다. 이번 포스트에서는 기획자 분을 구하는 과정을 다루겠다.구인 사이트 홀라(https://holaworld.io/)와 렛플(https://letspl.me/)사람을 구할 때는 홀라와 렛플을 사용했다. 이전에 디자이너분을 구할 때와 동일하..
[디자이너 구인 과정] 내 목소리로 AI 커버곡 제작 웹 서비스 디자이너 구하기 사이드 프로젝트로 내 목소리로 AI 커버곡 제작 웹 서비스를 제작하고 있다. 개발에서 프론트엔드, 백엔드, AI 사이드는 혼자서 진행을 한다. 하지만 기획은 자신없고, 디자인은 정말 자신없기 때문에 이를 도와주실 수 있는 디자이너를 구해야겠다고 생각했다. 그리고 시기적으로 백엔드와 AI 사이드는 60% 정도 완성된 상태이기 때문에 이 단계쯤에서 디자이너 분을 구하는 것이 좋겠다는 생각이 들었다. 그래서 이번 포스팅에서는 디자이너분을 구하는 과정을 적어볼까 한다.구인 사이트 홀라(https://holaworld.io/ )사람을 구할 때는 홀라를 사용했다. 이전에 사이드프로젝트 과정에서도 디자이너분을 구할 때 홀라에서 구했다. 그 과정에서도 많은 분들이 신청해주셨고, 사용하는 사람들도 많은 것 같아서 이번에..
[UVR 음원 분리] 음원 분리 잡음 해결 기존에는 https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI 의 music separation 모듈을 사용했다. 하지만 이 경우에는 분리된 MR에서 고음이나 소리가 큰 부분의 경우에는 찢어지는 소리가 들리는 문제가 있었다. 이를 해결할 필요가 있었다. (이 오픈소스에서도 아래의 UVR 모듈을 사용했다. 아마 사용한 모델이 약간 불안정한 모델이어서 찢어지는 소리가 생성된 듯 하다.)ultimatevocalremovergui이 때문에 현재 보컬 분리 오픈소스 중 가장 좋다고 하는 https://github.com/Anjok07/ultimatevocalremovergui 를 사용해서 보컬과 MR을 분리하는 모듈을 갈아끼우려고 한다.ult..
[RVC 코드 분석] 화자 목소리 모델과 가수 목소리 음원을 합성하여 화자 목소리로 부른 음원을 생성 화자의 목소리를 담은 노래 커버를 제작하는 ai 서비스를 개발중에 있다. 이를 위해 RVC(Retrieval-based Voice Conversion)라는 AI 음성 합성 기술을 사용한다. RVC에서 많이 사용하는 깃헙 레포지토리는 https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main 이다. 하지만 레포지토리 이름에서 보이는 대로 이는 그라디오로 만들어진 웹 상에서 작동하도록 설계된 레포지토리이다. 서비스 제작을 위해서는 코드를 분석하여 api로 만들 수 있도록 코드를 수정해야한다. 이 포스트에서는 서비스를 위한 AI 기능 구현을 위한 코드 분석 과정을 담는다. 서비스 상에서 구현되어야하는 AI 기능은 아래와 같다...
[RVC 코드 분석] 화자의 목소리를 받아서 화자 목소리 모델을 생성 화자의 목소리를 담은 노래 커버를 제작하는 ai 서비스를 개발중에 있다. 이를 위해 RVC(Retrieval-based Voice Conversion)라는 AI 음성 합성 기술을 사용한다. RVC에서 많이 사용하는 깃헙 레포지토리는 https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main 이다. 하지만 레포지토리 이름에서 보이는 대로 이는 그라디오로 만들어진 웹 상에서 작동하도록 설계된 레포지토리이다. 서비스 제작을 위해서는 코드를 분석하여 api로 만들 수 있도록 코드를 수정해야한다. 이 포스트에서는 서비스를 위한 AI 기능 구현을 위한 코드 분석 과정을 담는다. 서비스 상에서 구현되어야하는 AI 기능은 아래와 같다...