목록AI 음성 인식 (7)
코딩 다이어리

들어가기 전현재 사전 학습된 오픈 모델을 활용하고 있으나 성능에 한계가 있는 것을 확인이에 따라 한국어, 서비스에 맞도록 파인튜닝을 진행할 예정활용 가능한 음성 관련 데이터들을 수집하고 확인해서 학습 데이터셋을 구축할 예정현재까지 수집한 데이터셋을 리스트업하고 원본 데이터의 정보들을 확인각 데이터별 특성과 AI 모델에 맞도록 전처리 후 활용할 예정전처리 및 데이터셋 구축 관련 코드와 학습 결과 등은 추후 Github를 통해 공유할 예정모든 데이터는 상업적 목적으로 활용하지 않으며, 원본 데이터 정보는 공개하나 구축한 데이터셋을 직접 공유할 계획은 없음데이터셋 종류1. 한국어 음성데이터 기본 정보데이터셋 명칭: KsponSpeech출처/배포처: AIHUBURL: https://aihub.or.kr/aihu..

OpenNote: https://opennote.duckdns.org/(비용 문제로 GPU 서버를 구축하지 못해 화자 분할 및 STT 처리에 다소 시간이 걸림)1. 기술 스택Django오픈 소스 기반 웹 프레임워크반응형 웹 UI를 위해 bootstrap 사용을 고려했으나 직접 UI 디자인 및 개발 진행계정 로그인 시 개인 정보 문제와 편의성을 위해 소셜 계정 로그인 기능 추가(네이버, 카카오톡, github, google)Django ORM 활용 시 내장 DB인 SQLite가 아닌 PostgreSQL 사용RabbitMQAMQP를 구현한 오픈 소스 기반 메시지 브로커 소프트웨어사용자가 웹서버를 통해 데이터를 업로드 시, AI를 활용한 처리를 위해 활용GPU 서버 부족으로 사용량에 따라 consumer를 추..

OpenNote 링크 주소 : https://opennote.duckdns.org/개요STT, TTS, 화자 분할/분리, 음성 감정 인식 등등 음성 분야에서도 AI가 활용되며 관련 연구들이 진행되었고 이를 활용한 여러 서비스들이 나오게 되었다. 가장 많이 사용하게 되는 STT와 TTS 같은 경우 대기업 이외에도 여러 기업에서 API 형태로 제공하기도 하며, 여러 AI 기술이 활용된 클로바노트와 같이 고객들에게 직접 서비스하는 것들이 나오게 되었다. 따라서 LLM, vision AI 등과 같이 연구가 활발히 이뤄지고 있는 분야말고도 음성 분야도 충분히 수요가 있다고 생각한다. 지금까지 음성 분야 AI 기술을 공부하고 실무에서 활용하다보니 항상 드는 생각이 있었다. 그것은 바로 우리나라 자료를 찾기가 힘들다..

들어가기 전TTS 오픈 소스 중 많이 사용되는 coqui tts가 2023년 12월에 셧다운되어 더이상 업데이트를 진행하지 않게 되면서 다른 오픈 소스 사용이 불가피해졌다. 그래서 최근 TTS 관련 오픈 소스를 조사하던 중 Mysell.ai의 openvoice를 알게되었고, 2024년 4월에 v2 모델이 배포되면서 한국어 지원을 하게 되어 테스트를 해보려고 한다. SOTA 모델 중의 하나라고 하며 다중언어를 지원하고 특히 Zero-shot Cross-lingual Voice Cloning 기능이 있어서 사용해보려고 한다.논문 리뷰 참고(https://yc7764.tistory.com/39)개인 노트북에서 테스트를 진행하며 실행 환경을 구축할 서버의 사양은 아래와 같다.CPU: Intel(R) Core(T..

화자 분할(Speaker Diarization) 기술 설명여러 사람이 동시에 발화하는 음성에서 각 화자별 발화 구간을 탐지하는 기술음원 파일을 입력으로 받아 화자 정보와 타임 스탬프 정보가 포함된 rttm 파일을 출력화자 분할 오픈 소스로 Pyannote, NVIDIA Nemo, SpeechBrain, 3D-Speaker 등이 존재3D-Speaker화자 인식, 화자 분할을 위한 음성 인식 오픈소스 툴킷(https://github.com/modelscope/3D-Speaker)단일 또는 멀티 modal 모델을 지원하며, 음성과 이미지를 함께 활용 가능해당 툴킷에서 지원하는 사전 학습 모델들은 Modelscope를 통해 배포3D-Speaker라는 동일한 이름으로 음성 코퍼스 데이터셋 제공(https://3d..

1. STT(STT, Speech to Text)사람의 음성을 인식하여 문자로 변환해주는 기술일반적으로 음성 인식 이후 언어 모델 활용 등으로 문자를 후처리하여 교정활용하려는 목적에 따라 모델 선택 필요Multi language 모델: 입력 음원의 언어 종류를 인식하고, 여러 언어를 모두 인식할 수 있는 모델경량화 모델: 성능 대신 처리 속도 개선 및 사용 자원이 최적화된 모델음성 인식 분야에서 가장 많이 활용되는 기술 중 하나로 google, AWS, 네이버 등에서 서비스 지원2. TTS(TTS, Text to Speech)문자를 입력하면 해당 문자를 읽은 사람의 음성으로 변환해주는 기술음성 합성 방법을 기준으로 크게 두 가지 종류로 분류문자에서 음성을 바로 생성해내는 end-to-end 방식문자를 s..