목록전체 글 (40)
코딩 다이어리

행사 내용행사 주최: 과학기술정보통신부행사 일시: 2025.04.24~ 2025.04.26, 3일간행사 장소: 코엑스 1F, 3F행사 참가비: 사전 참가 신청 시 무료, 현장 신청은 1만원행사 주제: 디지털 미래를 여는 연결의 진화 행사 개요World IT Show는 대한민국을 대표하는 ICT 전문 전시회최신 정보통신기술과 디지털 혁신 트렌드를 한눈에 볼 수 있는 행사산업 관계자뿐 아니라 일반 참관객도 첨단 기술을 직접 체험하고 소통국내외 주요 IT 기업 및 기관이 참여하여 인공지능, 빅데이터, 클라우드, 5G/6G, 디지털 헬스케어, 스마트시티, 메타버스, XR 등 다양한 분야의 최신 기술과 솔루션을 소개전시회 구성 글로벌 ICT 전망 컨퍼런스업계 전문가들이 최신 기술 트렌드와 산업 전망을 공유컨퍼런스..

OpenNote: https://opennote.duckdns.org/(비용 문제로 GPU 서버를 구축하지 못해 화자 분할 및 STT 처리에 다소 시간이 걸림)1. 기술 스택Django오픈 소스 기반 웹 프레임워크반응형 웹 UI를 위해 bootstrap 사용을 고려했으나 직접 UI 디자인 및 개발 진행계정 로그인 시 개인 정보 문제와 편의성을 위해 소셜 계정 로그인 기능 추가(네이버, 카카오톡, github, google)Django ORM 활용 시 내장 DB인 SQLite가 아닌 PostgreSQL 사용RabbitMQAMQP를 구현한 오픈 소스 기반 메시지 브로커 소프트웨어사용자가 웹서버를 통해 데이터를 업로드 시, AI를 활용한 처리를 위해 활용GPU 서버 부족으로 사용량에 따라 consumer를 추..

OpenNote 링크 주소 : https://opennote.duckdns.org/개요STT, TTS, 화자 분할/분리, 음성 감정 인식 등등 음성 분야에서도 AI가 활용되며 관련 연구들이 진행되었고 이를 활용한 여러 서비스들이 나오게 되었다. 가장 많이 사용하게 되는 STT와 TTS 같은 경우 대기업 이외에도 여러 기업에서 API 형태로 제공하기도 하며, 여러 AI 기술이 활용된 클로바노트와 같이 고객들에게 직접 서비스하는 것들이 나오게 되었다. 따라서 LLM, vision AI 등과 같이 연구가 활발히 이뤄지고 있는 분야말고도 음성 분야도 충분히 수요가 있다고 생각한다. 지금까지 음성 분야 AI 기술을 공부하고 실무에서 활용하다보니 항상 드는 생각이 있었다. 그것은 바로 우리나라 자료를 찾기가 힘들다..

들어가기 전TTS 오픈 소스 중 많이 사용되는 coqui tts가 2023년 12월에 셧다운되어 더이상 업데이트를 진행하지 않게 되면서 다른 오픈 소스 사용이 불가피해졌다. 그래서 최근 TTS 관련 오픈 소스를 조사하던 중 Mysell.ai의 openvoice를 알게되었고, 2024년 4월에 v2 모델이 배포되면서 한국어 지원을 하게 되어 테스트를 해보려고 한다. SOTA 모델 중의 하나라고 하며 다중언어를 지원하고 특히 Zero-shot Cross-lingual Voice Cloning 기능이 있어서 사용해보려고 한다.논문 리뷰 참고(https://yc7764.tistory.com/39)개인 노트북에서 테스트를 진행하며 실행 환경을 구축할 서버의 사양은 아래와 같다.CPU: Intel(R) Core(T..

들어가기 전음성 합성 기술 중 하나인 TTS(Text to Speech)의 오픈 소스들에는 여러가지가 있지만 가장 활발하게 사용되는 오픈 소스인 coqui TTS가 2024년 1월에 셧다운되어 더이상의 업데이트가 이루어지지 않게 되었다.(https://github.com/coqui-ai/TTS/issues/3488) 이에 따라 대체할 수 있는 TTS 오픈 소스를 살펴보았으며 SOTA 기술이라고 자칭하는 Myshell-ai의 openvoice를 분석해보고 활용해보려고 한다. Myshell-ai는 meloTTS를 개발한 곳으로 zero-shot Cross-lingual Voice Cloning 기능을 지원하는 openvoice를 추가 개발하여 배포하고 있다.(https://github.com/myshell-..

오류 상황실행 환경OS : Windows 11(WSL2, ubuntu24.04 사용)그래픽 카드 : NVIDIA GeForce MX250상세 상황windows에는 그래픽 카드 드라이버(566.36버전)이 설치, 실행 창에서 확인 가능WSL2의 ubuntu 환경에서 GPU 사용을 위해 CUDA 및 드라이버 설치 후 nvidia-smi 실행 시 오류 발생관련 정보 및 링크windows와 WSL에서의 드라이버 버전 충돌 의심되어 버전 변경하며 재설치 진행했으나 동일한 오류 발생CUDA 확인 및 python으로 GPU 테스트 시 정상 구동 확인, nvidia-smi 명령어 실행 시에만 오류 발생WSL github에 비슷한 내용의 이슈 확인(https://github.com/microsoft/WSL/issues/..