[2018 HCIK 강연후기] OZ와 Amazon Skill을 이용한 인공지능 서비스 기획 – 이중식 외 3명(서울대)

[2018 HCIK 강연후기] OZ와 Amazon Skill을 이용한 인공지능 서비스 기획 – 이중식 외 3명(서울대)

[2018 HCIK 강연후기] OZ와 Amazon Skill을 이용한 인공지능 서비스 기획 – 이중식 외 3명(서울대)
Category
Share Story

2014년 11월 알렉사(Alexa)를 탑재한 에코(Echo)가 세상에 처음 모습을 드러내었습니다.
2016년 3월 알파고(AlphaGo)가 바둑으로 이세돌 기사를 이기며 인공지능에 대한 관심이 전 세계적으로 폭발하기 시작했습니다. 2018년 2월 현재, 사람들은 일상 속에서 인공지능이 탑재된 제품이나 서비스를 쉽게 접할 수 있게 되었고, 인공지능과의 인터랙션에 익숙해지고 있습니다. 그리고 앞으로는 생활 가전부터 자동차, 공공 서비스 등 일상의 모든 곳에서 인공지능을 발견할 수 있을 것입니다.
이러한 흐름의 일환으로 VUI(Voice User Interface) 디자인의 중요성이 점점 높아지고 있는데, 화면이 없는 VUI는 어떻게 디자인 해야 하는 것일까요? 그리고 VUI 디자인을 위한 사용자 리서치는 어떻게 해야 하는 것일까요?

서울대학교 UX Lab의 <OZ와 Amazon Skill을 이용한 인공지능 서비스 기획> 발표 세션에서 그 해답의 실마리를 찾을 수 있었습니다.

 

들어가며 :  음성인식 서비스, 사용자 intent, Use-case

VUI 디자인에서 가장 중요한 것은 사용자의 ‘의도(intent)’를 파악하는 것이라고 합니다. 음성 인터랙션이 표현이나 문법보다 ‘의도’ 중심으로 진행된다면 사용자가 명령을 위해 각 요소를 구분하여 구체적으로 발화할 필요 없이 사람과 대화하듯 자연스럽고 편하게 인공지능과 인터랙션 할 수 있기 때문입니다. 의도 파악하기. 이야말로 GUI와 VUI 차이의 핵심이 아닐까요? 이로써 사용자는 더 이상 컴퓨터의 언어를 학습할 필요가 없어졌기 때문이죠.

 

h01(Source: 서울대학교 UX Lab SlideShare)

그렇다면 음성 콘트롤 기능을 탑재한 제품의 VUI는 어떻게 디자인 해야 할까요? 음성 콘트롤은 만능일까요? 기본 메뉴를 음성이 대체할 수 있는 부분은 어디까지이고, 음성으로 조작해서 나아지는 것들은 무엇일까요?

02(Source: 서울대학교 UX Lab SlideShare)

 

서울대학교 UX Lab에서는 이 질문에 대한 답을 Use-Case 조사를 통해 얻을 수 있었다고 합니다. 또한, VUI는 데이터가 시스템을 디자인 하기 때문에 Use-Case 조사를 통해 좋은 품질의 많은 데이터를 확보하는 것이 중요하다고 합니다.

서울대 UX Lab에서 소개하는 Use-case driven 디자인 방법론. 다 같이 알아볼까요?

 

1. WOZ로 VUI(Voice User Interface) 서비스 Use-case 발굴하기

많은 디자이너들이 익히 알고 있는 WOZ(Wizard of OZ)가 최근 다시 주목을 받고 있다고 합니다. 존재하지 않는 기술을 가지고, 미래 상품을 디자인하기 위한 사용자 조사 방법으로 효과적이기 때문이죠. 서울대학교 UX Lab에서는 이 방법을 활용하여 전기밥솥의 VUI 디자인을 위한 사용자 조사를 진행했습니다.

 

h03(Source: 서울대학교 UX Lab SlideShare)

1) 상황 사진 제작

h04(Source: 서울대학교 UX Lab SlideShare)

(1) 사진 촬영: 1인칭 시선으로, 시간의 흐름이 드러나게, 주변 맥락이 나타나게!
(2) 중맥락 사진 선택: 사람들이 열린 마음으로 자유롭게 말할 수 있도록
(3) 저니맵에 따라 사진 배치: 실제로 사람들은 ‘밥’만 짓지 않아요!

다양한 Use-case를 확보하기 위해서는 태스크 중심의 WOZ보다는 상황 중심의 WOZ가 더 적합합니다. 그래서 조사 참여자가 제품 사용과 관련된 상황을 적절히 이해하고 상상할 수 있어야 하는데, 이를 도와주기 위한 Visual Cue로 가장 적절한 것이 사진입니다. 그리고 ‘조사 참가자가 해당 사진을 보고 다양한 발화를 할 수 있는지’를 항상 염두에 두고 적절한 사진을 선택해야 합니다.

 

2) 응답 제작

h05(Source: 서울대학교 UX Lab SlideShare)

(1) 전반적 니즈 수집: 사람들에게 사진을 보여주고, 어떤 말을 하는지 알아본다.
(2) 구체적인 응답 작성: 구체적으로 작성하되, 정확할 필요는 없다.

 

사용자 조사를 진행하면서 들려줄 응답을 미리 준비하기 위해 사용자의 예상 발화를 수집해야 합니다. 그리고 수집된 발화를 통해 제품에 대한 기존의 니즈에 더해 인공지능을 통해 인터랙션 하기 때문에 발생하는 새로운 니즈를 파악하고, 각 니즈에 대한 적절한 응답을 작성합니다.

 

3) 응답 방식 정하기

h06(Source: 서울대학교 UX Lab SlideShare)

사용자 조사가 진행 중일 때, 일정한 시간 간격으로 일관된 형태의 답변을 제공하기 위해서는 응답을 미리 녹음해야 합니다. 또한 연구자 및 참가자에 상관없이 일정한 경험 제공을 위해 Flow Chart를 활용하면 좋습니다.

 

4) 조사 및 분석

07(Source: 서울대학교 UX Lab SlideShare)

(1) 현재 VUI: 기존의 기능을 직접적으로 표현
(2) 기능 구현 필요: 표현은 직접적이지만 새로운 기능
(3) 트레이닝 Set: 기존의 기능을 상황적으로 말하는…
(4) 장기적으로 해결: 새로운 기능을 상황적으로 말하는…

 

‘기존 기능과 새로운 기능’, ‘기능적 표현과 상황적 표현’의 두 가지 척도로 수집된 발화문을 분류할 수 있습니다. 그리고 분류된 각 영역별 특성에 따라 수집된 발화문의 활용 방안을 정할 수 있습니다. 더불어 분류하는 과정에서 특별한 인사이트를 얻을 수도 있습니다. 예를 들어, 서울대학교 UX Lab에서는 본 리서치를 진행하면서 사용자는
Agent를 항상 ‘함께 요리를 하는 대상’으로 생각하며 질문이나 요구한다는 사실을 발견했다고 합니다. 특히, 함께 요리를 한다는 것은 ‘시야를 공유’하고 ‘이전 발화 및 행동을 기억’한다는 의미를 내포하고 있다고 하는데, 이러한 인사이트는 더 나은 VUI 설계에 큰 도움을 줄 것입니다.

 

2. 아마존 스킬 제작을 통한 음성 인터랙션 Use-case 채굴

두 번째 방법론은 아마존 알렉사에서 사용할 수 있는 스킬을 만들어 사용자 조사를 하는 방법이다. 사용자가 음성인식 디바이스를 사용하면 다양한 발화를 통해 되는 것과 안 되는 것을 확인하는 탐색과정을 거치면서 디바이스의 가능성을 파악하고 새로운 기능을 상상하게 된다고 합니다. 더불어 실제 생활에서 조사를 할 수 있고, 동시에 여러 명을 장시간에 걸쳐 조사할 수 있는 장점이 있습니다. 아마존 스킬 제작을 통한 조사는 어떻게 하는 것일까요?

h08(Source: 서울대학교 UX Lab SlideShare)

1) 재료를 모으기 위한 ‘자동응답기’ 스킬 만들기

h09(Source: 서울대학교 UX Lab SlideShare)

알렉사 스킬을 쉽게 만들 수 있도록 아마존이 공개한 Alexa Skill Kit을 활용하면 원하는 스킬을 만들 수 있습니다. WOZ에서 전반적인 니즈 수집 및 응답 제작을 위해 발화를 수집했던 것처럼, 제일 처음 사용자의 발화를 폭넓게 수집하기 위한 녹음기 스킬을 제작합니다. 사용자의 발화가 녹음 되었다는 확인만 응답해주면 됩니다. 이렇게 수집한 발화를 통해 의도(intent)를 분류합니다.

 

2) 스킬을 똑똑하게 만들기 위한 발화(Utterance) 수 늘리기

h10(Source: 서울대학교 UX Lab SlideShare)

그 다음으로 사용자 조사를 위한 본격적인 스킬 제작을 위해 각 의도 별 발화(Utterance)를 채워 넣습니다. 하나의 의도당 최소 50-100개의 발화를 입력해야(학습시켜야) 사용자 발화의 의도를 충분히 파악할 수 있다고 합니다. 이를 위해 온라인 설문 또는 Amazon mTurk를 통해 집단 지성을 활용하면 보다 쉽게 발화 수를 늘릴 수 있다고 합니다.

 

3) 대화를 이해할 수 있도록 ‘니즈채집기’ 스킬 만들기

h11(Source: 서울대학교 UX Lab SlideShare)

이제 스킬을 제작합니다. 지금까지 수집된 의도 및 의도 별 발화를 Alexa Skill Kit에 추가하여 스킬을 학습시킵니다. 여기에 사용자 발화에 대한 응답을 위해 DB 정보, 컨트롤 기능 등을 추가하고 부족한 부분은 더미 응답을 만들어서 추가해줍니다.

 

4) 발화의 변화 양상을 보기 위한 ‘니즈채집기’ 스킬 업그레이드

h12(Source: 서울대학교 UX Lab SlideShare)

마지막은 제작한 스킬을 사용하여 조사를 하는 것 입니다. 조사 참여자들은 이제 자신의 발화 의도에 따라 적절한 응답을 받게 되므로, 해당 제품을 실제처럼 사용할 것입니다. 그 과정에서 사용자들의 새로운 의도가 발견되거나, 불필요한 기능이 생기기도 합니다. 그러면 이를 지속적으로 스킬에 반영하여 스킬을 업그레이드 하여 조사를 계속할 수 있습니다.

 

3. Summary: WOZ vs Skill

WOZ와 Skill, 이 두 가지 방법은 음성 콘트롤 제품 개발의 앞 단에서 1)새로운 포지셔닝을 돕고, 2)보이스 특화된 요구를 발견하고, 3) 인터랙션의 디테일을 파악하고, 4)데이터를 얻는데 도움을 줄 수 있습니다. 하지만 그렇다고 이 두 방법이 어느 상황에서나 만능은 아닐 것 입니다. 각각의 장단은 있기 때문입니다.

h13(Source: 서울대학교 UX Lab SlideShare)

먼저, WOZ는 Skill에 비해 쉽고 빠르게 이용할 수 있는 장점이 있습니다. 익숙한 방법론이면서 프로그래밍이 필요 없기 때문에 진입장벽이 낮기 때문이죠. 또한, 예상치 못한 상황이 발생하더라도 유연하게 대처할 수 있습니다.
반면에 항상 연구자가 대기하고 있어야 하기 때문에 시간과 노력이 많이 소요됩니다. 동시에 여러 사용자를 대상으로 조사를 진행하는 것 또한 어렵습니다. 그리고 장기간에 걸쳐 사용할 경우에 대한 사용자의 행동 패턴이 어떻게 변화하는지는 알기 어려운 단점이 있습니다.

Skill은 WOZ에 비해 효율적이라는 장점이 있습니다. 자동화가 가능하고, 동시에 여러 사용자를 대상으로 조사가 가능하기 때문이죠. 또한, 실제와 같은 상황에서 조사가 진행되기 때문에 현실에 가까운 데이터를 수집할 수 있으며 스킬 업그레이드를 통해 사용자의 변화하는 니즈에 대응하며 장기간 동안 조사하며 사용자 행동 패턴의 변화를 파악할 수 있습니다. 하지만 프로그래밍을 해야 하는 진입장벽이 존재하고, 아마존 에코 제품 군을 구입하는데 비용이 소요되며, 조사를 위해 사용자에게 사용법을 학습하는 등의 수고가 필요합니다. 그리고 무엇보다도 아직까지 알렉사가 한국어를 지원하지 않기 때문에, 한국어 기반의 조사에는 사용이 불가능한 점이 가장 큰 단점입니다.
맺음말

앞으로 화면 기반의 UI를 벗어나 VUI를 디자인할 일이 점점 많아질 것입니다. 그 때마다 서울대학교 UX Lab에서 공유해준 두 가지 방법론을 참고한다면, VUI 디자인을 위한 초석을 닦는데 큰 도움이 되리라 생각합니다. 유익한 세션 준비해주신 서울대학교 UX Lab에 깊은 감사의 말씀 드립니다.
– UX1컨설팅 그룹 정지용
발표자료 보기: 서울대학교 UX Lab SlideShare
타이틀 이미지 출처 : www.amazone.com