최종편집 : 2026-04-17 오후 06:02:50

종합행정정치출향인사회/복지/여성산업문경대학·교육문화/체육/관광사람들길 따라 맛 따라다문화

전체기사

커뮤니티

공지사항

독자투고

직거래장터

자유게시판

결혼

부음

뉴스 > 사설/칼럼

+크기 | -작게 | 이메일 | 프린트

인공지능시대(59): 음성인식 인공지능

2022년 03월 22일(화) 16:57 [주간문경]

 

 

↑↑ 지홍기
영남대학교 명예교수
문경대학교 특임교수
문경시지역발전협의회 의장

ⓒ (주)문경사랑

 

음성을 문자로 전환

STT(Speech-to-Text)는 음성(Speech)을 인식하여 문자(Text)로 전환하는 기술로서 STT를 음성인식 또는 인공청각에 의한 문자전환 기술이라고 표현한다. 사람의 음성을 인터페이스를 통해 텍스트(문자) 데이터로 추출해 내는 방법으로 현재는 다양한 플랫폼과 서비스의 상용화로 보다 쉽게 접할 수 있는 기술이다.

그러나 STT 기술은 사람이 말하는 모습을 X레이로 촬영하고 목소리의 구조를 조사하는 연구가 활발히 진행되었다. 소리를 낼 때의 변화를 확인하고 이를 수식모델에 소리를 합성하면 음성합성이 되며, 입력된 음성이 어떤 모델에 가까운가를 살펴보면 음성인식이 가능하다고 믿게 되었으며, 1963년 IBM이 개발한 ‘슈박스(Shoebox)’라는 음성인식기가 공개된 바 있다. 오늘날에는 고성능 GPU 및 클라우드 서버 등 여러 하드웨어(HW)적인 발전과 분산처리 기술력으로 음성인식 기술이 더욱이 빠르게 발전 및 대중화하고 있다.

대면과 비대면 대화

사람들은 마주 보고 앉아 대화할 때와 비대면 즉, 전화 통화를 할 때는 의사 소통에 많은 차이를 느끼게 된다. 이는 표정과 입 모양, 손짓 등 다양한 비언어적 요소가 대화에 있어 55% 정도의 많은 부분을 차지하고 있기 때문이다. 그러나 STT 기술에서는 이러한 비언어적 요소 없이 음성만으로 정확한 내용을 처리해낼 수 있는 기술이다.

ⓒ (주)문경사랑

STT 핵심 요소기술

STT를 위한 데이터에는 크게 음향학적 관점과 언어학점 관점으로 볼 수 있다. 즉, 음향학적 관점은 말하는 사람의 공간, 노이즈 등의 환경적인 데이터가 주를 이루고 있으며, 언어학적 관점에서는 어휘, 문맥, 문법 등을 모델링하기 위한 언어 데이터가 주를 이룬다.

STT는 크게 음성/언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계로 나뉜다. STT 엔진은 음성과 언어 데이터의 사전지식을 사용해서 음성 신호로부터 문자정보를 출력하는데, 이 때 해석이라는 차원에서 STT 알고리즘을 해석(Decoder)한다고 부른다. 디코딩 단계에서는 학습단계 결과인 음향모델, 언어모델 발음사전을 이용하여 입력된 특징 벡터를 모델과 비교하고 계수화(Scoring)하여 단어 열을 최종 결정 짓게 된다.

음향 모델링은 해당 언어의 음운 발음의 음향적 특성을 확률모델로 대표 패턴을 생성하는 과정이며, 언어모델링은 어휘 선택, 문장 단위의 구문과 구조 등 해당 언어의 사용성 문제에 대해 문법체계를 통계적으로 학습하는 과정이다. 또한 발음의 사전 구축을 위해서는 텍스트를 소리 나는 대로 변환하는 음소 변환(Grapheme-to-Phoneme) 과정이 필요하며, 표준발음을 대상으로 하는 발음변환 규칙만으로는 방언이나 사용자의 발화 습관과 어투에 따른 다양한 패턴을 반영하기 어려운 경우가 있어 별도의 사전 구축이 필요하게 된다.

고성능 STT의 진화

STT의 성능은 DB 크기와 품질에 비례하여 향상될 수 있다. 상용 서비스에 적용되는 음향 모델의 대부분이 확률 통계기반으로 이루어졌으며, 2010년대 들어서면서 딥러닝 기반으로 단어 인식 오류를 개선하게 되었다.

최근에는 순서와 순서(StS) 방식의 순환시경망(RNN) 기반으로 속도와 성능 측면에서 음성인식의 정도 높은 결과를 가져왔다. 음성인식에서도 번역어(End-to-End) 학습방식의 발전으로 일련의 오디오 특징을 입력하여 일련의 글자(Character) 또는 단어들의 출력을 학습할 수 있게 되었다. 또한 입력 데이터와 레이블 사이의 음성정렬 정보가 없어도 학습이 가능하게 되었으며, 다양한 학습법을 통해 계속해서 STT의 성능은 향상되고 있다.

홈페이지관리자 기자  .
“주간문경을 읽으면 문경이 보인다.”
- Copyrights ⓒ주간문경. 무단 전재 및 재배포 금지 -

주간문경 기사목록  |  기사제공 : 주간문경

 

이전 페이지로

실시간 많이본 뉴스

 

더 새롭게 아름답게 찾아온 ‘2

문경시 베트남 까마우성 계절근로

문경시 점촌점빵길 빵 축제 특별

점촌 원도심에서 제2회 점촌점빵

문경시장애인주간이용시설 장애인

영순면 지역사회보장협의체 정기회

문경시보건소 찾아가는 감염병 예

문경교육지원청 중등 신규 및 저

문경시보건소 심뇌혈관질환 예방

국립농산물품질관리원 문경사무소

창간사 - 연혁 - 조직도 - 광고문의 - 제휴문의 - 개인정보취급방침 - 청소년보호정책 - 구독신청 - 원격

 상호: 주간문경 / 사업자등록번호: 511-81-13552 / 주소: 경상북도 문경시 점촌2길 38(점촌동) / 대표이사: 남정현 / 발행인 : 남정현/ 편집인: 남정현 / 청소년보호책임자 : 남정현
제호: 인터넷주간문경 / 등록번호: 경북 아00151 / 종별: 인터넷신문 / 등록일 2010.10.28 / mail: imgnews@naver.com / Tel: 054-556-7700 / Fax : 054-556-9500
Copyright ⓒ (주)문경사랑. All Rights Reserved. 본지는 신문 윤리강령 및 그 실천요강을 준함