최종편집 : 2026-04-17 오후 06:02:50

          사설지홍기 교수. 데이터 시대지홍기 교수 Ⅲ. Gen AI 시대지홍기 교수 Ⅱ.인공지능시대지홍기 교수 Ⅰ. 제4차 산업혁명시대김안제 박사의 隨想강성주의 역사에서 배운다강성주의 뉴스로 세상읽기종합

전체기사

커뮤니티

공지사항

독자투고

직거래장터

자유게시판

결혼

부음

뉴스 > 지홍기 교수 Ⅱ.인공지능시대

+크기 | -작게 | 이메일 | 프린트

인공지능시대(35): 인공지능 음성인식 기술

2021년 07월 20일 [주간문경]

 

 

↑↑ 지홍기
영남대학교 명예교수
문경대학교 특임교수
문경시지역발전협의회 의장

ⓒ (주)문경사랑

 

생각을 음성으로

생각을 음성으로 옮겨주는 음성 전환기술 즉, 사람이 머릿속으로 떠올린 말을 곧바로 음성으로 옮겨 주는 인공지능(AI) 시스템이 개발되었다. 언어와 음성 장애를 가진 환자는 물론, 뇌 활동이 가능하지만 사지를 움직이지 못하는 전신마비 환자와 대화하는 일도 가능해질 것으로 기대된다.

캘리포니아대 에드워드 창 교수는 사람의 뇌 신호를 해독해 머릿속으로 떠올린 영어 문장을 음성 언어로 변환해 주는 기술을 개발해 간질 치료를 받고 있는 환자 5명을 대상으로 이 기술을 검증하는 데 성공했다고 ‘네이처’에 발표했다. 사람의 뇌와 컴퓨터를 연결하는 “뇌-컴퓨터 인터페이스(BCI)” 기술과 AI 딥러닝(심층기계학습) 기술을 접목한 결과다.

뇌에 심은 전극패드

뇌에 전극패드를 심은 사이보그 시대에 접어들면서 뇌 신호로 사람의 의도를 파악해 컴퓨터 화면의 커서를 움직이거나 키보드를 눌러 주는 AI가 있었지만, 1분당 말할 수 있는 단어 수가 최대 8개(영어 기준) 정도에 그쳤다. 이 때문에 1분당 150개 단어(영어 기준)를 말하는 사람의 자연어 속도를 따라가지 못함으로써 사람 뇌에 칩을 심어야 하는 부담도 있었다.

피험자의 두개골 안쪽 대뇌피질 표면에 전극 패드를 붙이는 “뇌피질전도(ECoG, 신체 활동능력)” 기술을 사용했다. 먼저 피험자들이 수백 개 문장을 말하는 동안 일어나는 뇌 활동 패턴과 음성 패턴 간의 상관관계를 분석했다. 말소리를 낼 때 입술과 혀, 턱 등 조음기관과 성도(콧구멍부터 성대에 이르는 구간) 움직임을 조절하는 특정 뇌 부위가 활성화된다는 점에 착안했다.

뇌피질전도 기술

향후 뇌피질전도 기술을 발전시키면 “말하지 못하거나 한 번도 말을 해본 적 없는 장애인에게도 충분히 적용할 수 있을 것”이라고 기대하고 있다. 빅데이터를 토대로 훈련한 AI 시스템은 피험자들이 입 밖으로 소리를 내지 않고 문장을 말하는 시늉을 낼 때 나타나는 뇌 신호를 해독해 해당 문장을 음성으로 합성하게 된다.

따라서 “특정 패턴으로 목 근육이 움직일 때 어떤 톤과 주파수(피치)가 발생하는지 예측해 이를 기계적인 음성으로 합성해 주는 방식”이며, “사실상 모든 말을 옮겨 줄 수 있는 셈이 될 것”이다. 이 기술은 장래 선천적인 언어 장애인에게도 충분히 적용할 수 있을 것이라는 희망을 암시하고 있다.

음성인식 API 란?

응용 프로그래밍 인터페이스(API: Application Programming Interface, 응용 프로그래밍 중간자)는 응용 프로그램에서 사용할 수 있도록, 운영 체제와 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 중간자 역할을 뜻한다.

주로 파일 제어, 창 제어, 화상 처리, 문자 제어 등을 위한 인터페이스를 제공하며, 최신 인공지능(AI) 기술에 기반하여 음성인식 API는 한국어, 영어, 일본어, 중국어, 독어, 불어, 스페인어, 러시아어, 베트남어에 대해 고성능의 음성인식 정확률을 제공하는 서비스로서, 사용자가 발성한 녹음된 음성 데이터(단위 파일 또는 버퍼)를 음성인식 서버로 전달하여 문자(텍스트)로 제공한다.

따라서 음성인식 API는 입력 및 출력을 지원하며, ETRI에서 제공하는 API Key 인증을 통해 사용할 수 있는 Open API이다. 그러므로 음성인식 기술은 의사 형태소(Pseudo Morpheme)라는 기본 인식 단위를 사용함으로써 상용 서비스를 적용할 때, 어휘 적용범위를 쉽게 제고할 수 있게 구현되어 있다.

음성인식 기술이 인간에 더 접근하기 위해서는 방대한 양의 정확도 높은 데이터가 필요하며, AI 학습에 법률, 스포츠, IT, 대화형 등 다양한 분야와 형태의 음성 데이터가 활용될수록, AI는 인간의 목소리를 더 정확히 인식하여 이해하게 될 것이다.

전체 : 0

이름

조회

작성일

전체의견보기(0)

 

이름 :  

제목 :  

내용 :  

 

 

비밀번호 :  

 

!! 타인의 명예를 훼손하거나 개인정보를 유출하는등 법률 및 신문사 약관에 위반되는 글을 삼가하여 주시기 바랍니다.
게시물에 대한 민형사상의 법적인 책임은 게시자에게 있으며 운영자에 의해 삭제되거나 관련 법률에 따라 처벌 받을 수 있습니다.

홈페이지관리자 기자 .
“주간문경을 읽으면 문경이 보인다.”
- Copyrights ⓒ주간문경. 무단 전재 및 재배포 금지 -

주간문경 기사목록  |  기사제공 : 주간문경

 

이전 페이지로

실시간 많이본 뉴스

 

더 새롭게 아름답게 찾아온 ‘2

문경시 베트남 까마우성 계절근로

문경시 점촌점빵길 빵 축제 특별

문경시장애인주간이용시설 장애인

영순면 지역사회보장협의체 정기회

점촌 원도심에서 제2회 점촌점빵

문경시보건소 찾아가는 감염병 예

문경교육지원청 중등 신규 및 저

문경시보건소 심뇌혈관질환 예방

국립농산물품질관리원 문경사무소

창간사 - 연혁 - 조직도 - 광고문의 - 제휴문의 - 개인정보취급방침 - 청소년보호정책 - 구독신청 - 원격

 상호: 주간문경 / 사업자등록번호: 511-81-13552 / 주소: 경상북도 문경시 점촌2길 38(점촌동) / 대표이사: 남정현 / 발행인 : 남정현/ 편집인: 남정현 / 청소년보호책임자 : 남정현
제호: 인터넷주간문경 / 등록번호: 경북 아00151 / 종별: 인터넷신문 / 등록일 2010.10.28 / mail: imgnews@naver.com / Tel: 054-556-7700 / Fax : 054-556-9500
Copyright ⓒ (주)문경사랑. All Rights Reserved. 본지는 신문 윤리강령 및 그 실천요강을 준함