|
|

|
|
인공지능시대(59): 음성인식 인공지능
|
|
2022년 03월 22일 [주간문경] 
|
|
|

| 
| | | ↑↑ 지홍기
영남대학교 명예교수
문경대학교 특임교수
문경시지역발전협의회 의장 | ⓒ (주)문경사랑 | | 음성을 문자로 전환
STT(Speech-to-Text)는 음성(Speech)을 인식하여 문자(Text)로 전환하는 기술로서 STT를 음성인식 또는 인공청각에 의한 문자전환 기술이라고 표현한다. 사람의 음성을 인터페이스를 통해 텍스트(문자) 데이터로 추출해 내는 방법으로 현재는 다양한 플랫폼과 서비스의 상용화로 보다 쉽게 접할 수 있는 기술이다.
그러나 STT 기술은 사람이 말하는 모습을 X레이로 촬영하고 목소리의 구조를 조사하는 연구가 활발히 진행되었다. 소리를 낼 때의 변화를 확인하고 이를 수식모델에 소리를 합성하면 음성합성이 되며, 입력된 음성이 어떤 모델에 가까운가를 살펴보면 음성인식이 가능하다고 믿게 되었으며, 1963년 IBM이 개발한 ‘슈박스(Shoebox)’라는 음성인식기가 공개된 바 있다. 오늘날에는 고성능 GPU 및 클라우드 서버 등 여러 하드웨어(HW)적인 발전과 분산처리 기술력으로 음성인식 기술이 더욱이 빠르게 발전 및 대중화하고 있다.
대면과 비대면 대화
사람들은 마주 보고 앉아 대화할 때와 비대면 즉, 전화 통화를 할 때는 의사 소통에 많은 차이를 느끼게 된다. 이는 표정과 입 모양, 손짓 등 다양한 비언어적 요소가 대화에 있어 55% 정도의 많은 부분을 차지하고 있기 때문이다. 그러나 STT 기술에서는 이러한 비언어적 요소 없이 음성만으로 정확한 내용을 처리해낼 수 있는 기술이다.
| 
| | ⓒ (주)문경사랑 | | STT 핵심 요소기술
STT를 위한 데이터에는 크게 음향학적 관점과 언어학점 관점으로 볼 수 있다. 즉, 음향학적 관점은 말하는 사람의 공간, 노이즈 등의 환경적인 데이터가 주를 이루고 있으며, 언어학적 관점에서는 어휘, 문맥, 문법 등을 모델링하기 위한 언어 데이터가 주를 이룬다.
STT는 크게 음성/언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계로 나뉜다. STT 엔진은 음성과 언어 데이터의 사전지식을 사용해서 음성 신호로부터 문자정보를 출력하는데, 이 때 해석이라는 차원에서 STT 알고리즘을 해석(Decoder)한다고 부른다. 디코딩 단계에서는 학습단계 결과인 음향모델, 언어모델 발음사전을 이용하여 입력된 특징 벡터를 모델과 비교하고 계수화(Scoring)하여 단어 열을 최종 결정 짓게 된다.
음향 모델링은 해당 언어의 음운 발음의 음향적 특성을 확률모델로 대표 패턴을 생성하는 과정이며, 언어모델링은 어휘 선택, 문장 단위의 구문과 구조 등 해당 언어의 사용성 문제에 대해 문법체계를 통계적으로 학습하는 과정이다. 또한 발음의 사전 구축을 위해서는 텍스트를 소리 나는 대로 변환하는 음소 변환(Grapheme-to-Phoneme) 과정이 필요하며, 표준발음을 대상으로 하는 발음변환 규칙만으로는 방언이나 사용자의 발화 습관과 어투에 따른 다양한 패턴을 반영하기 어려운 경우가 있어 별도의 사전 구축이 필요하게 된다.
고성능 STT의 진화
STT의 성능은 DB 크기와 품질에 비례하여 향상될 수 있다. 상용 서비스에 적용되는 음향 모델의 대부분이 확률 통계기반으로 이루어졌으며, 2010년대 들어서면서 딥러닝 기반으로 단어 인식 오류를 개선하게 되었다.
최근에는 순서와 순서(StS) 방식의 순환시경망(RNN) 기반으로 속도와 성능 측면에서 음성인식의 정도 높은 결과를 가져왔다. 음성인식에서도 번역어(End-to-End) 학습방식의 발전으로 일련의 오디오 특징을 입력하여 일련의 글자(Character) 또는 단어들의 출력을 학습할 수 있게 되었다. 또한 입력 데이터와 레이블 사이의 음성정렬 정보가 없어도 학습이 가능하게 되었으며, 다양한 학습법을 통해 계속해서 STT의 성능은 향상되고 있다.
|
|
|
|
|
|
|
|
|
|
|
|
!! 타인의 명예를 훼손하거나 개인정보를
유출하는등 법률 및 신문사 약관에 위반되는
글을 삼가하여 주시기 바랍니다. 게시물에
대한 민형사상의 법적인 책임은 게시자에게
있으며 운영자에 의해 삭제되거나 관련 법률에
따라 처벌 받을 수 있습니다.
|
|
|
홈페이지관리자 기자 . “주간문경을 읽으면 문경이 보인다.” - Copyrights ⓒ주간문경.
무단 전재 및 재배포 금지 -
|
|
|
|
주간문경
기사목록 | 기사제공 : 주간문경
|
|
|
|
|
|

|
|
실시간
많이본
뉴스
|
|
|
|
|