speech, Audio basic concept

AI(Artificial Intelligence) speech process

Speech recognition; 음성인식
Speech synthesis; 음성합성
Speaker Recognition; 화자 인식
Classification; 분류

음성 정보

발음의 종류, 성별, 음색, 높이
frequency; 주파수(단위 : Hz; Hertz; 헤르츠) : 1초에 몇 번 진동했는지 나타내는 수치이다.
모든 소리는 다양한 주파수 성분들의 합으로 이루어져 있다.
speechs; sound = signal + noise

Fourier Transform; 푸리에변환

sampling time; 특정 시간 길이의 음성 조각(Frame; 프레임)이 각각의 주파수 성분들을 얼마만큼 갖고 있는지를 의미하는 spectrum을 얻게 해주는 함수

Spectrogram; 스펙트로그램 : 시간 변화에 따른 스펙트럼의 변화

음성 전체로부터 얻은 여러개의 스펙트럼을 시간 축에 나열한 결과

사람의 귀 또한 이와 유사한 메커니즘을 갖고 있어 소리에 들어 있는 각각의 주파수 성분들을 추출하는 방식으로 청취한 소리에 내재된 정보들을 얻는 것입니다.

STT; Speech To Text : 음성을 텍스트로 변환하는 기술

화자가 누구든지 상관없이 문장을 동일하게 인식해야 하므로 기본 주파수와 같이 화자에 종속적인 정보보다는 발음 정보가 중요하다.

사람이 음성을 들을 때

실제 소리에는 고주파 대역보다 저주파 대역에 소리의 의미 있는 정보가 집중되어 있다, 실제 사람의 달팽이관(cochela)도 저주파 대역 소리를 더 집중해서 들을 수 있도록 설계되어 있다고 볼 수 있다.(사람이 흔히 귀로 들을 수 있는 주파수인 가청 주파수:20~20,000Hz) 실제 주파수를 사람의 달팽이관 특성에 맞게 수학적으로 변환해주는 방법이 Mel Scale이다. 높이가 다른 2개의 음을 사람에게 들려줬을 때, 사람의 달팽이관을 통해 인지하는 차이와 실제 주파수 값의 차이를 조사하여 통계를 구축하였고, 이를 함수로 관계를 정의 했다. 즉, Mel Scale은 주파수 성분을 중요도에 따라 차등적으로 사용하기 위한 좋은 지표로 사용된다.

달팽이관의 주파수 별 청각 인지 구조를 모델링한 그림 (출처: Encyclopedia Britannica)

용어

Coefficient ;계수 ( 6x+2y = 0 에서 6과 2가 계수이다.)

MFCC; Mel-Frequency Cepstral Coefficient

sounds -> vector ; 음성 데이터에서 특징을 뽑아내는 알고리즘

fbank

num_mel_bins = features of audio

cnn -> batch, channel, time, demension(num_mel_bins)

num_mel_bins 는 filter-bank 의 개수?

https://pytorch.org/audio/stable/generated/torchaudio.compliance.kaldi.fbank.html#torchaudio.compliance.kaldi.fbank

torchaudio.compliance.kaldi.fbank — Torchaudio 0.13.1 documentation

Shortcuts

pytorch.org

https://hyunlee103.tistory.com/46

오디오 데이터 전처리 (4) Mel Filter Bank

오디오 데이터 전처리 (3)에서 이어지는 4번째 글입니다. 지난 글에서는 잠깐 전체 흐름을 벗어나 cepstrum 분석에 대해 간단히 알아보았습니다. Cepstrum은 주파수 대역 간의 변동 특성을 파악하기

hyunlee103.tistory.com

https://ratsgo.github.io/speechbook/docs/fe/mfcc

MFCCs

articles about speech recognition

ratsgo.github.io

TTS AI Model VALL-E

article

https://www.thedailypost.kr/news/articleView.html?idxno=91008

MS, 3초 샘플로 목소리 재현하는 인공지능(AI) '발리' 발표 - 글로벌 뉴스 미디어 채널 데일리포스

ㅣ데일리포스트=김정은 기자ㅣ마이크로소프트(MS)가 새로운 음성 합성 인공지능(AI) 모델인 \'발리(VALL-E)\'를 발표했다. 고품질 음성 합성 애플리케이션인 발리는 단 3초의 음성 샘플로 사람의 목

www.thedailypost.kr

Sample Test

https://valle-demo.github.io/

VALL-E

VALL-E Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [Paper] Chengyi Wang*, Sanyuan Chen*, Yu Wu*, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng

valle-demo.github.io

논문

https://arxiv.org/abs/2301.02111

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language model (called Vall-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional

arxiv.org

Reference

BLOG - AI에게 어떻게 음성을 가르칠까?
BLOG - 코끼리에겐 들리지만 우리에겐 안들리는 것
WIKIPEDIA - Mel Scale
BLOG - MFCC

'AI > 공부' 카테고리의 다른 글

multi-class and multi-label (0)	2023.05.12
23/01/13 (1)	2023.01.13
23/01/11 pytorch (0)	2023.01.11
23/01/10 Text-to-Speech (0)	2023.01.10

StarryNight

speech, Audio basic concept

AI(Artificial Intelligence) speech process

음성 정보

Fourier Transform; 푸리에변환

Spectrogram; 스펙트로그램 : 시간 변화에 따른 스펙트럼의 변화

사람이 음성을 들을 때

MFCC; Mel-Frequency Cepstral Coefficient

fbank

TTS AI Model VALL-E

Reference

'AI > 공부' 카테고리의 다른 글

티스토리툴바

speech, Audio basic concept

AI(Artificial Intelligence) speech process

음성 정보

Fourier Transform; 푸리에변환

Spectrogram; 스펙트로그램 : 시간 변화에 따른 스펙트럼의 변화

사람이 음성을 들을 때

MFCC; Mel-Frequency Cepstral Coefficient

fbank

TTS AI Model VALL-E

Reference

'AI > 공부' 카테고리의 다른 글

관련글

티스토리툴바