C13

음성인식 음성합성 AI 소리와 글자

핵심 비유

음성인식 AI는 '받아쓰기 전문 학생'과 같다. 이 학생은 선생님 목소리를 듣고(음향 모델), 앞뒤 문맥을 떠올려 맞춤법에 맞게 받아쓴다(언어 모델). 처음엔 실수가 많지만, 수십만 시간을 들을수록 어떤 억양과 사투리도 알아듣게 된다. TTS는 반대로, 글을 보고 성우처럼 자연스럽게 읽어주는 AI 성우다.

핵심 포인트

소리는 공기 진동이고, 마이크는 이 진동을 숫자(디지털 파형)로 바꿔 컴퓨터에 전달한다. AI는 이 숫자 패턴을 분석해 어떤 말인지 알아낸다.
STT(Speech-to-Text)는 말소리를 글자로, TTS(Text-to-Speech)는 글자를 말소리로 바꾸는 기술이다. 시리, 빅스비, 클로바가 이 두 기술을 모두 사용한다.
음성인식 AI는 '음향 모델'(소리 패턴 학습)과 '언어 모델'(문맥·문법 학습) 두 개의 뇌가 함께 작동해 정확도를 높인다.
AI는 수십만~수백만 시간의 음성 데이터를 학습해 사람마다 다른 발음, 사투리, 소음 속 목소리도 점점 잘 인식하게 된다. OpenAI Whisper는 68만 시간의 데이터로 학습했다.
TTS는 단순히 녹음을 재생하는 게 아니라, 텍스트를 소리 스펙트럼(멜 스펙트로그램)으로 변환한 뒤 AI가 사람처럼 자연스러운 억양과 감정을 덧붙여 음성을 합성한다.

교사 팁

수업 도입 시 학생들에게 스마트폰 빅스비나 시리에게 "오늘 날씨 알려줘"라고 말하게 해 STT→AI 처리→TTS 응답 과정을 직접 경험시킨다. 이어서 Google Teachable Machine(teachablemachine.withgoogle.com)을 열고, 박수 소리와 '안녕' 목소리를 각각 20회씩 녹음해 AI가 두 소리를 구별하게 훈련시키는 5분 실습을 진행한다. "AI가 내 목소리 20번을 듣고 배웠다"는 경험이 '데이터로 학습'하는 핵심 개념을 직관적으로 심어준다.

참고 자료

우리 일상생활 속에 녹아있는 STT, TTS 기술ko / article
STT(음성→텍스트)와 TTS(텍스트→음성) 기술의 일상 적용 사례를 시리, 빅스비, 스마트 홈 기기 등 친숙한 예시로 설명한 한국어 기사. 중학생이 바로 이해할 수 있는 수준.
내 목소리를 알아 듣는 인공지능, 원리가 뭘까?ko / article
음향 모델과 언어 모델이 어떻게 협력해 사람 목소리를 텍스트로 바꾸는지 그림과 함께 쉽게 풀어 쓴 한국어 블로그 글. 딥러닝 학습 과정도 간략히 소개.
Google Teachable Machine — 소리 인식 체험en / interactive
브라우저에서 직접 마이크로 소리를 녹음해 AI 모델을 훈련시키는 무료 인터랙티브 도구. 로그인·설치 불필요. 수업 중 학생이 직접 '박수 소리'와 '목소리'를 분류하는 AI를 5분 안에 만들 수 있음.
Speech synthesis — Wikipediaen / wiki
TTS(음성 합성)의 역사, 파형 생성 방식, 딥러닝 기반 뉴럴 TTS 원리를 망라한 위키피디아 영문 문서. 교사가 배경지식을 쌓거나 심화 자료로 활용 가능.
OpenAI Whisper: Convert Speech To Text — Explained in 8 Minutes (Simplilearn)en / video
오픈소스 음성인식 모델 Whisper가 어떻게 음성을 텍스트로 바꾸는지 8분 영상으로 설명. 인코더-디코더 구조를 시각적으로 보여줘 원리 이해에 도움. 영어 자막 지원.

음성인식 음성합성 AI 소리와 글자

핵심 비유

핵심 포인트

관련 개념

교사 팁

참고 자료