음성 데이터의 기본

AI 음성 인식

음성 데이터의 기본

yc7764 2023. 5. 14. 19:17

소리의 3요소

공기의 밀도가 변하며 퍼져나가면서 소리가 발생하며 소리의 시간에 따른 밀도 변화를 파동(Wave) 또는 음파라고 함
파동 또는 음파의 모양을 파형(WaveForm)이라고 하며, 파동의 진동 수, 파장, 진행 속도, 진폭을 이용해 표현
소리의 3요소인 소리의 세기, 높낮이, 맵시에 따라 모든 소리를 구분할 수 있게 함

1. 소리의 세기(Loudness)

소리의 세기 특징

소리의 세기는 음파의 진폭(Amplitude)을 의미하며, 공기 분자가 얼마나 크게 흔들렸는 지를 나타냄
크게 진동하는 물체는 주변의 공기를 크게 떨리게 진동시켜 진폭이 큰 음파를 만들어 냄
진폭이 크면 소리가 강해지고, 진폭이 작으면 소리가 작아짐
데시벨(dB) 단위를 사용해 소리의 세기를 나타냄

2. 소리의 높낮이(음정, Pitch)

소리의 높낮이는 음파의 진동수를 의미하며, 공기가 얼마나 자주 흔들렸는 지를 나타냄
자주 진동하는 경우에는 높은 소리가, 적게 진동하는 경우 낮은 소리가 남
1초 동안 주기가 반복되는 횟수를 주파수(Frequency)라고 하며 주파수가 높을수록 진동의 속도가 빨라짐
즉, 주파수에 따라 소리의 높낮이(Pitch)가 결정되며, 헤르츠(Hz)를 사용해 주파수를 표현함

3. 소리의 맵시(음색, waveform)

소리의 맵시에 따른 파형의 모양(왼쪽: 거친 소리, 오른쪽: 부드러운 소리)

소리의 맵시에 따른 파형의 모양(왼쪽: 거친 소리, 오른쪽: 부드러운 소리)

소리의 맵시는 파동의 생긴 모양을 의미하며 소리의 진폭과 높낮이가 같더라도 맵시가 다르면 다른 소리로 느껴짐
소리를 발생시키는 물체의 모양과 진동을 일으키는 방법이 다르면 소리의 맵시도 달라지게 됨

음성 데이터

샘플링(Sampling) 예시

음성 데이터 저장 과정

현실에서 입력으로 주어진 아날로그 음성 신호를 디지털 신호로 바꾸어 음성 데이터를 저장
소리가 마이크에 감지되면 전기신호로 변환되며, 마이크가 1개인 경우 모노(Mono, single-channel), 2개인 경우 스테레오(Stereo, multi-channel) 음성이라고 함
실제 소리는 연속적인 파형을 가지기 때문에 디지털 신호로 저장하기 위해 일정 간격으로 구분하는 작업을 수행하며 이러한 작업을 샘플링(Sampling)이라고 함. 즉 샘플링을 통해 연속치를 이산치로 변환해 저장
연속적인 값에서 1초 당 샘플링한 횟수를 샘플링 속도(Sampling rate)라고 하며 높을수록 음성 데이터의 음질이 좋음

음성 파일 형식

1. WAV(Waveform audio format)

윈도우에서 사용되는 표준 PCM 형식의 파일로 대부분의 음원 편집/재생 소프트웨어에서 지원
무손실, 무압축 방식으로 용량이 크며 원본 소스를 손실없이 저장 가능

2. FLAC(Free Lossless AUdio Codec)

WAV 파일 형식보다 쉬운 파일 관리를 위해 탄생한 무손실 압축파일 형식
WAV 파일 형식 대비 용량 40~50% 절감하지만 WAV나 FLAC이나 같은 규격을 가지고 있다면 포맷이 달라져도 정보 손실 없음
FLAC 파일을 디코딩하는 과정에서 CPU 연산이 다른 포맷에 비해 적게든다는 장점이 있음

3. MP3(MPEG-1 / MPEG-2 Audio Layer -3)

MPEG(1988년에 정의된 동영상 표준화) 오디오 규격에 맞게 개발된 손실 압축 포맷으로 인간이 듣지 못하는 부분을 제거하고 압축하여 용량을 작게 줄인 파일 형식
MP3 파일 형식은 뛰어난 오디오 품질을 유지하며 PCM의 1/10 정도의 용량을 가져 가장 인기있는 파일 형식임

4. AAC(Advanced Audio Coding, M4A)

MP3보다 뛰어난 음질과 압축률을 보이며 MP3의 한계인 320kbps과 48kHz보다 향상된 512kbps과 96kHz까지 지원
스트리밍 음원 서비스 및 유튜브 영상, 블루투스처럼 음원을 쪼개서 전송해야 되는 환경에서 탁월한 성능을 보임