목록논문 리뷰 (2)
코딩 다이어리

들어가기 전음성 합성 기술 중 하나인 TTS(Text to Speech)의 오픈 소스들에는 여러가지가 있지만 가장 활발하게 사용되는 오픈 소스인 coqui TTS가 2024년 1월에 셧다운되어 더이상의 업데이트가 이루어지지 않게 되었다.(https://github.com/coqui-ai/TTS/issues/3488) 이에 따라 대체할 수 있는 TTS 오픈 소스를 살펴보았으며 SOTA 기술이라고 자칭하는 Myshell-ai의 openvoice를 분석해보고 활용해보려고 한다. Myshell-ai는 meloTTS를 개발한 곳으로 zero-shot Cross-lingual Voice Cloning 기능을 지원하는 openvoice를 추가 개발하여 배포하고 있다.(https://github.com/myshell-..

들어가기 전음성 향상 기술을 조사하면서 facebook의 denoiser(https://github.com/facebookresearch/denoiser)를 알게 되었고 denoiser를 활용하기 위하여 원천 기술인 Demucs를 이해하려고 하였다. Demucs는 음악에서 보컬, 드럼, 베이스, 다른 기타 악기의 음원을 분리하는 기술로, 음원 중에서 보컬의 음원만을 분리하는 것에 초점을 맞추어 잡음에서 사람의 음성을 추출해내는 기술로 발전하였다. 잡음에서 사람의 음성을 추출해내는 것, 즉 잡음을 제거하는 효과로 음성의 품질을 향상시키고 있다. 또한 음원 분리를 위한 방법으로 spectrogram 기반 방법과 waveform 기반 방법 두가지가 있고 차이점과 장단점을 확인할 수 있었다. 음원 분리를 위한 ..