Siri

‘음성인식’ 기획과 개발 경험기

시계를 돌려 2011년으로 돌아가려고 합니다. 2011년은 스마트 폰의 보급이 확산되고 대중화되면서 경쟁이 매우 치열했던 시기였습니다.(지금 생각해 보면 제조사 입장에서 황금기가 아니었나 생각됩니다.) 지금도 그렇지만 스마트폰에서 스펙(spec)은 생명(?)과도 같고 사활이 걸린 중요한 이슈입니다.

회사마다 무엇으로 차별화할지 경쟁이 치열하던 그 때 애플이 세계 1위 음성인식기술 업체인 미국의 ‘뉘앙스(NUANCE)’를 인수합니다.

당시 스마트폰 제조사 UX 기획자였던 제 미션은 대내외 분위기상 자연스럽게 ‘음성인식’으로 정리되었고, 프로젝트가 시작되었습니다.
‘음성인식’이라는 기능도 그 시기즈음부터 대중들에게 서서히 인지되었던 것으로 기억합니다.

당시의 기억을 더듬으며,
이번 글을 통해 음성인식으로 어떤 기능들을 호출할 수 있고 사용할 수 있는지를 분석하기보다는, 제가 실제 경험하며 부딪혔던 여러 상황들과 기획자 관점에서 본 음성인식에 대한 몇 가지 이야기를 더해볼까 합니다.

음성인식 왜 ‘대상’으로 바라봐야 할까?

음성인식은 크게 ‘디바이스에 엔진을 탑재해 지정된 명령어를 실행하는 방법’과 ‘서버 통신을 통한 실행 방법’으로 나눌 수 있습니다.
전자는 한정된 명령어를 기반으로 하며 서버와의 통신이 필요 없기 때문에 빠르게 기능을 호출할 수 있으나, 엔진에 탑재할 수 있는 언어의 범위 및 자연스런 대화는 제한됩니다.

후자는 서버기반으로 실행하여 서버가 끊기면 실행되지 않는 단점이 있으나, 사용 언어/어휘를 지속적으로 업데이트 할 수 있고 개선할 수 있다는 장점이 있습니다.
또한 인터넷 망을 활용한 검색, 서비스 연결 등이 용이하여 확장 가능성이 무궁무진합니다.

그렇다고 임베디드 방식이 활용도가 낮다는 것은 아닙니다.
음성인식을 어떻게 활용할 것인지의 목표나 방향에 따라 선택하면 되는 것이니까요.

저의 경험은 서버기반으로 한 음성인식을 바탕으로 하고 있습니다.
그래서 이에 한정하여 내용과 생각들을 풀어보고자 합니다.

02

음성 인식은 어떤 구조로 동작하고 반응할까요?

크게는 음성으로 말을 하고 인식하는 과정으로 크게 나눌 수 있으며, 자세히는 말의 패턴 분류와 분류된 패턴의 음성 단위를 나누는 과정을 거칩니다.
이 때 데이터 베이스에 얼마나 많은 어휘 및 문장이 있는지에 따라 인식률이나 성공률이 달라지게 됩니다.
즉, 초기의 Siri보다 현재의 Siri가 더 다양한 어휘나 자연스런 대화가 가능한 것도 이때문입니다.

음성인식의 구조를 아는 것도 중요하지만, 무엇보다 본질적인 질문.
‘왜 시스템에 터치가 아닌 음성으로 명령을 내려야 하는지’에 대해 질문하고 고민하는 것이 사실 더 중요합니다.

저는 프로젝트 진행 초기에 조금씩 시장에 나오고 있는 앱들과 경쟁력면에서 차별화 해야 했기 때에 어떤 기능을 넣어야 더 뛰어나 보일지에 집중했었습니다.

그런데 가장 많이 받은 질문은 ‘왜 손으로 해도 되는 것을 굳이 음성으로 하는가'그리고 음성으로 명령을 내린 다는 것이 너무나도 어색하다는 의견들이었습니다.

그래서 어느 날 검색 창에 ‘말하다’를 입력해 찾아봤습니다.
‘말하다’의 사전적 의미는 ‘생각이나 느낌을 말로써 남에게 이르다.’ 로서, 사람과 사람 사이의 커뮤니케이션이라는 내용이 나옵니다.
사람이 아닌 스마트폰과 같은 기기에 말을 하는 것이 어색할 수 밖에 없는 이유였습니다.

그렇다면 일상적이지 않은 행위를 어떻게 하면 자연스럽게 받아들이게 할 것인가.
이것이 음성인식을 기반으로 하는 기능을 기획할 때의 중요한 점이라고 생각합니다.

너무나도 당연한 것이라고 생각하실지 모르겠지만, 단순히 터치의 불편한 점을 개선한 음성인식으로 접근하면 기능 중심으로 열거하고 기능 단위로 확장되기 쉽습니다.

2012년 당시 출시된 앱들을 한번 살펴 볼까요?
Siri를 제외한 출시된 앱의 이름은 ‘OO Voice’로 비슷한 이름들입니다.

음성인식이 간단한 화면속에 복잡한 개발 과정을 거쳤고, 대화의 형식으로 기능을 실행하게 하면서 다른 앱과 뚜렷이 다름에도 이름은 이를 반영하지 못했다는 생각입니다.
그리고 현재는 Siri를 제외하고는 크게 관심을 못 받고 있는 것이 현실입니다.

왜 일까요?
그건 만든 사람들이 음성인식을 어떻게 규정하고 바라봤는지 네이밍에서부터 설명해주고 있습니다.

Siri는 사람이 상대의 이름을 부르고 묻듯이 자연스런 대화를 유도할 수 있고 재미있으면서 기계적인 느낌을 최소화 하려 했습니다.
바로 이 점이 사람들로 하여금 친숙하게 느낄 수 있게 했습니다.
이것이 Siri의 가장 중요한 키 입니다.

03_1

 

03_2

 

 

03-3

 

03-4

 

영화 속 음성인식 그리고 AI

음성인식의 초기 버전이 스마트폰 스크린에서 결과를 보여주고, 대화를 텍스트로 변환해주는 방식이었다면 앞으로는 그렇지 않을 것입니다.

영화 ‘Her’를 보신적 있으신가요?
제겐 이 영화속 ‘사만다'가 Siri의 극단적인 모습처럼 보였습니다.

사만다는 주인공의 말에 귀기울이고 이해해주기도 하며 공감합니다.
인공지능이 주인공과 소통할 수 있는 대상 그리도 사랑할 수 있는 대상으로 그려진 것이 신선하게 다가왔습니다.

04

그리고 영화 아이언 맨의 ‘자비스’는 시스템을 통재하고 주인공의 명령을 따릅니다.
인공지능으로 모든 생태계가 움직인다는 것이 복잡한 구조,방대한 데이터의 집합체로 여겨지지 않고 자연스럽고 위트있게 보여졌습니다.

또한 어느 곳에서건 자연스럽게 대화하고 주인공이 어떤 데이터를 스크린으로 보길 원하면 표시합니다.

한가지 제 경험을 알려 드리면, 음성인식 앱을 기획할 때 음성과 스크린을 동일시해야 했고 스마트 폰에 대화 내용이 정확하게 텍스트로 나와야 명령 결과를 알 수 있을 것이라고 판단했었습니다.(대부분 그런 형식이었죠)

그런데 대화 내용을 텍스트로 읽게 한다는 것은 참으로 불편하고 앞으로 음성인식이 가야할 지향점은 아니라 생각됩니다.

제가 예로 들은 위의 두 영화에서의 인공지능은 기존 영화에서의 딱딱한 대화와 명령 위주의 인터랙션으로 그려지지 않습니다.  감성적이고 위트있는 대상으로 존재합니다.

음성인식의 필수 요소들

이제 음성인식을 어떻게 만들고 구성할 것인지에 대한 저의 생각을 정리해 보겠습니다.

먼저 음성인식을 활용한 시스템을 구성할 경우, 사용하는 사람이 자연스럽게 받아들이도록 해야 합니다.
이를 위해 system을 특정 persona로 규정하면 도움이 됩니다.

사람의 말은 형식적이기도 하고 목적을 갖고 말을 하기도 하지만 그렇지 않은 경우도 많기 때문에, 대화중 발생하는 돌발 상황이나 질문에 대한 대답은 규정된 성격 특성에 따라 대응하게 할 수 있습니다.
그렇게 되면 사용자는 성격(또는 특징)으로 받아들이게 됩니다.

또한 규정된 Persona가 대답할 수 있는 풍부한 어휘를 구성하는 것도 필요합니다.
얼마나 많은 어휘를 구성하느냐에 따라 대화의 흐름은 자연스러워 집니다.

그리고 음성인식으로 사용할 수 있는 기능의 범위를 명확하게 해야 합니다.
화면을 보지 않고도 사용할 수 있는 것이 음성인식의 goal 때문에 무엇을 사용할 수 있을 지 사용자가 예측할 수 없다면 사용 중 계속된 오류로 신뢰할 수 없게 됩니다.

저는 예전 음성인식의 기능을 구성한 후 매뉴얼을 정리하는 것이 어려웠었습니다.
스마트폰의 기능을 제한적으로 사용해야 했기 때문에 되는 기능과 안되는 기능을 매뉴얼로 숙지하도록 했습니다.

그러다 보니 사용자에게 부담을 줬고 음성인식을 어렵게 느끼는 사람도 있었습니다.
좀더 자유롭게 스마트폰을 사용하도록 기능을 기획했지만 그것이 벽이 된 것 같았습니다.

그 후 몇년에 흐른 지금의 웨어러블, IoT등으로 엮인 음성인식은 좀더 자유롭고 자연스러워 보입니다.
스크린에 제약되지 않고 음성으로 사용할 당위성이 좀더 명확해 보이기까지 합니다.

05-1

05-2

05-3

 

06-1

 

06-2

06-3

06-4

음성인식은 느리지만 예전보다는 우리 생활에 가까이 다가와 있고 이를 활용하는 방법도 다양해 지고 있는 것이 분명해 보입니다.  초기 시장에서 격었던 시행착오들이 많이 개선되어 지능화 된 결과물들 또한 많이 볼 수 있습니다.

앞으로 우리가 만날 음성인식이 영화의 사만다나 자비스가 될지 궁금합니다. ^^

 

– 가치UX그룹 최지은

Share this:

Leave a comment