[2018 HCI NEW TREND SEMINAR 강연 후기] T map x NUGU 음성 인터페이스 디자인 사례_이남민, 한보람 SK텔레콤

[2018 HCI NEW TREND SEMINAR 강연 후기] T map x NUGU 음성 인터페이스 디자인 사례_이남민, 한보람 SK텔레콤

[2018 HCI NEW TREND SEMINAR 강연 후기] T map x NUGU 음성 인터페이스 디자인 사례_이남민, 한보람 SK텔레콤
Category
Share Story

들어가며

2016년 3월에 알파고와 이세돌의 바둑 대결이 인공지능에 대한 대중들의 이목을 끌었고, 최근 그에 부응하듯 인공지능과 관련한 다양한 분야에서의 연구들이 진행되고 있습니다. 2018년 HCI 학술대회에서는 그러한 연구의 성과들을 공유하는 내용들이 많았고, 이 중 반응이 좋았던 몇몇 강의자분들을 한국인터넷전문가협회에서 다시 초청하여 세미나를 진행하였습니다. 모든 강의들이 다 좋았지만, 그중에서도 가장 인상 깊었던 강의였던  ‘T map x NUGU 음성 인터페이스 디자인 사례’를 정리하여 공유하고자 합니다.
T map X NUGU, 인공지능 적용을 통한 차별화와 경쟁력 향상

기업들이 급변하는 시장에서의 경쟁력 확보와 혁신이란 이름으로 ‘인공지능(AI, artificial intelligence)’이라는 아이템에 관심을 보이기 시작했습니다. 이에 따라 다양한 인공지능을 활용한 서비스들이 나오고 있으며, 그중 인공지능 스피커는 잇 아이템으로 급 부상하고 있습니다.

SK텔레콤에서도 ‘NUGU’ 라는 인공지능을 통해 사용자 데이터를 누적하고, SK의 다양한 서비스를 개선하고 제공하는 전략적인 행보를 밟고 있습니다.

01

[SK 인공지능 서비스, NUGU] 출처: NUGU 홈페이지

 

SK텔레콤의 효자 서비스 중 하나인 ‘T map’은 2002년부터 ‘Nate Drive’란 이름으로 GPS 키트를 활용한 실시간 길 안내 유료 서비스를 시작하였고, 2007년에 T map으로 명칭이 변경되어 현재 통신사와 무관하게 무료로 길 안내 서비스를 제공하고 있습니다.

그러나 이제 고객 수의 한계점에 다다르고, 경쟁사와의 차별화와 차 안에서의 안전한 T map 사용에 대한 사회적 문제까지 고려하게 되었습니다.

02[카카오내비 길안내 화면]                     [티맵 길안내 화면]

 

03[운전 중 내비게이션 서비스 조작의 위험성]
출처: 조선일보, 운전자 10명 중 8명이 “운전하며 ‘내비’ 조작해 봤다(문현웅, 주희연 기자)

 

이러한 고민 해결과 시장 선점을 위해 SK의 인공지능 서비스인 NUGU를 T map에 탑재하기로 하였습니다.

이번 세션에서는 T map에서 NUGU 플랫폼을 활용하여 어떠한 과정으로 서비스를 개선하고, 어떤 점들을 고민하고 고려했는지 공유하는 시간이었습니다.

 

T-map의 디자인 목표

“운전 상황에서 필요한 다양한 콘텐츠들음성 인터페이스를 활용해 쉽고 안전하게 제공하자.”

STEP 1. 어떤 기능을 제공할까?

니즈를 찾기 위한 사용자 조사

T map의 사용자들은 차 안에서 어떠한 서비스들을 제공 받길 원할까요?
스마트 폰으로 전화, 음악재생, 검색, SNS 등 많은 것들이 가능해지면서 오히려 차 안에서 정보를 찾고 공유하는 사용자 경험들이 많아졌습니다. 이러한 경험들은 때로 사용자에게 불편한 경험을 제공하기도 하고 사용하는 서비스로 하여금 더 큰 기대를 기대하게 합니다.

T map은 이러한 차 안에서의 사용자의 니즈를 해소해주기 위해 NUGU와 T map의 어떤 기능을 활용하여 새로운 서비스를 제공할 수 있을지 관찰하고 고민하였습니다.

[T map에서 진행한 사용자 조사]

  1. 차량 관련 어떤 정보 활동이 벌어질까?
    : 다양한 유형의 사용자들이 차량 환경에서 어떤 정보 활동을 하는지 조사
  2. 운전 중 AI에게 기대하는 기능은?
    : Dialog Trigger Scene + Wizard of OZ 방법론 활용, 운전 중 발생할 니즈를 32명을 대상으로 수집하여 기능군을 도출
    * Dialog Trigger Scene + Wizard of OZ 와 관련된 내용은 ‘DTS(Dialog Trigger Scene)와 WoZ 를 사용한 차량 내 VUI 유즈 케이스 발굴 (윤종묵, 안아주, 이중식)’ 논문을 참조하면 좋을 것 같다. 간단히 말하면 사용자가 주어질 환경의 이미지를 제공하여 발화 Case를 수집하는 방법론이다.
  3. T map의 AI에게 기대하는 주요 기능은?
    : 화면 클릭로그 분석 진행, 사용 빈도가 높은 주요 기능 리스트 도출
  4. T map 기능 중 음성으로 제공했을 때 더 좋을 기능은?
    : Touch depth는 깊어 사용성이 낮지만, 음성으로 제공했을 때의 기회영역 파악
  5. NUGU 기능 중 운전 상황에 제공할 기능은?
    : NUGU 플랫폼에서 제공 중인 기능 중 T map을 사용 context에 맞는 기능 선별

 

04

[사용자 조사 키워드]

 

T map에서 진행한 사용자 조사는 차량에서의 정보 활동과 운전 중이라는 Context를 바탕으로 사용자들이 NUGU, T map과 AI를 통해 기대할 수 있는 기능들을 조사하고 VUI를 어떻게 적용할지 기회요소를 찾는 과정을 볼 수 있습니다.

 

STEP 2. UX를 어떻게 제공할까?

T map VUX 원칙 세우기

NUGU를 T map에 적용하기 위해서는 VUX(Voice User interface)에 대한 공부와 원칙을 세워 어떻게 제공할지에 대한 방향성을 세워야 합니다. T map은 이를 위해 일반적인 VUX/멀티모달 인터페이스(Multi-Modal Interface) 디자인 원칙을 스터디하고, 기존의 T map의 디자인 원칙을 기반으로 운전 상황에 적합한 T map만의 VUX 원칙을 정립하였습니다.

*멀티모달 인터페이스[Multi-Modal Interface]: 사용자 인터페이스들인 키보드·마우스 이외에 음성 인식, 제스처 인식, 디바이스 펜, 행동 인식, 터치 인식 등 기타 생체 인식을 활용해 특별한 장치 없이 유비쿼터스 컴퓨팅 환경을 구축하여 사용자 중심의 업무 효율을 높이는 기술.

즉, 사용자의 다양한 생체 인식을 활용한 인터페이스를 의미한다. (출처: 손에 잡히는 IT 시사용어, 2008.02.01, 한국정보통신기술협회)

 

T map의 VUX원칙을 세우기 위한 근거 자료들

[VUX/멀디모달 디자인 원칙, 음성인식 관련 사례]

*추천도서: Designing Voice User Interface

[T map의 주요 디자인 원칙]

  1. 길 안내 우선: 길 안내 주요 컴포넌트를 가리지 않는다.
  2. 눈이 헤매지 않는: 길 안내에서 가장 중요한 정보들은 좌측에 제공
  3. 흘깃 봐도 알 수 있는: Eyes off the road time 최소화 (폰트 크기, 정보량)
  4. 돌이키기 쉬운: 쉽게 길 안내 상태로 돌아갈 수 있어야 한다
  5. 조작하기 쉬운: 운전 중 조작을 위해 버튼 배치 위치 고려
  6. 자주 쓰는 기능: 기존 사용 행태를 고려하여 점진적으로 변화시킨다.

[디자인 환경/제약 사항]

사용 환경의 제약:

  1. 운전 중이므로 인지적로도, 눈과 손이 자유롭지도 않다.
  2. 스마트폰 거치로 인한 사용자와 기기 간의 물리적 거리가 있다.
  3. 마이크 성능의 한계가 있다.
  4. 운전 중 고속 주행, 터널, 주위 소음, 비 등 주변 소음이 발생한다.

[T map의 주 사용자]

T map을 습관처럼 사용해 온 30-50대 남성, 변화에 보수적

 

STEP 3. Design Process 시작하기

T map에 NUGU를 활용하여 VUX를 적용하기 위해 다음과 같은 과정으로 디자인을 진행하였습니다.

05

[T map x NUGU Design Process]

 

UI 구조 설계

T map 의 VUX 원칙을 기반으로 설계한 UI의 고려 사항들을 본 강의에서 공유해주었고, 몇 가지들을 재정리 해보았습니다.

  1. 길 안내를 유지하면서, 멀티모달 인터랙션 제공 (음성+터치)
    : T map에서는 내비게이션의 주목적인 길 안내를 유지하면서 음성 인터페이스를 사용했을 때, 소음이 많이 발생하는 운전 상황에 대한 제약 사항을 고려하여 터치 인터랙션을 적절히 사용하였습니다.

06[T map 에서 봉은사로의 길안내를 검색했을 때 Process]

예를 들면, 사용자가 “봉은사로 가자”라고 음성 명령을 내렸을 때, ‘봉은사삼거리’, ‘봉은사’, 봉은사 주차장’ 순으로 있다고 할 때 “첫 번째”라고 말하는 것보다 성격이 급한 사용자들은 터치가 편할 수 있다는 것입니다.
이에 따라 목적지 리스트를 노출하고 터치로도 선택할 수 있도록 합니다.

  1. Wake up 버튼은 우 하단에 배치
    : 운전자 측에서는 길 안내와 관련된 정보가 먼저 보이는 게 중요합니다. 이에 따라 중요한 길 안내 정보는 좌측에 제공되고 ‘음성 안내’ 기능은 일관되게 우측에 배치하여 기능을 제공하고 있습니다. 또한 기존의 클릭률이 높은 버튼과의 근접도 등을 고려하여 화면을 구성하였습니다.
  1. 말해도 되는’ 상태를 알려주기 위한 장치 효과음, 도트 애니메이션 제공

07

[음성 인식상태를 도트 애니메이션으로 제공하고 있다]

 

  1. 대화는 사용자가 시작한다.
    : 사용자가 명확히 의도 했을 때에만 NUGU와의 대화가 시작되어야 하며 대화의 종료도 마찬가지입니다.
    스마트 폰에서 제공하는 소리는 ‘통화’, ‘길 안내’, ‘미디어’ 등이 있다. 이랬을 때 어떤 소리를 우선적으로 사용자에게 제공하고 어느 시점에 NUGU가 사용자의 차 안에서의 경험을 무너뜨리지 않으면서 대화를 걸어야 할지 고려되어야 합니다.
  1. 확률 높은 정보를 선제적으로 제시
    : 선택될 확률이 높은 정보를 우선 제시하여 추가적인 인터랙션을 줄인다. 예를 들면 자주 사용될 발화 방식 예시를 미리 보여줌으로써 사용자가 보다 정확한 음성명령을 내릴 수 있도록 돕습니다.

08

[음성 명령 예시를 선제공하고 있다]

시나리오 및 TTS 응답 설계
*TTS (문자음성 자동 변환 기술)

화면을 설계했다면 설계한 화면을 기반으로 어떠한 시나리오를 제공하고, 어떻게 발화할 것인지 설계합니다.
SK 텔레콤에서 시나리오와 TTS 설계를 위해 고려한 원칙들을 아래와 같이 공유합니다.

  1. 대화형 UX = Short Cut UX
    : Touch UX 대비 짧은 Depth를 목표로 시나리오를 구성한다.
  1. 커버리지냐 완성도냐?
    : 지향점은 OOS/OOD보다는 제공할 수 있는 최선을 다하자.
    사용자에게 서비스가 수행하지 못하는 것을 알리는 것보다, 꼭 맞지 않은 정보라도 최선을 다하고 있음을 보여주는 것이 사용자로 하여금 더 우호적인 반응을 기대할 수 있다.

  예시)  “교통정보 알려줘”  → 잘 이해하지 못했어요, 제공할 수 없는 기능이예요.  (X)
→지금은 막히는 구간이 꽤 있네요. 목적지까지 23분 걸릴 거 같아요. (O)

  1. 경우의 수와의 싸움
    : 어떻게 말할지 모르고, 의도에 대한 해석도 필요.
    다양한 사용자가 말하는 방식을 전부 이해하기란 쉽지 않다. 다양한 경우의 수를 고려하고 사용자가 원하는 의도를 파악해야 한다.예시) 주유소를 찾는 여러 경우의 수 :
    가까운 SK 주유소 알려줘”, “주유소 찾아줘” “가는 길에 있는 싼 LPG 주요소 알려줘”
  1. Domain Ambiguity 처리하기
    : T map 은 기본적으로 장소 검색 수행하도록 한다.
    애매한 명령어가 제공됐을 때 사용자가 어떤 것을 의도하는지 파악해야 한다.예시) “양화대교” → <장소> 양화대교, <음악> 자이언티의 양화대교,
    “EBS”    →  <장소> EBS 본사, <라디오> EBS 채널”
  1. TTS 응답 정보 Chunk는 3개 이하로 구성
    : 사용자에게 많은 정보를 제공하는 것보다 주요 응답 정보를 3개 이하로 제공한다.“코엑스까지 안내를 시작합니다. 오전 12시 45분 도착 예정이며, 분당 내곡간 고속도로를 거쳐가는 경로입니다.”
  1. TTS 응답의 처음과 마지막이 제일중요
    :
    운전 중의 사용자가 기억하기 쉬운 처음과 끝의 응답내용이 중요하다.

가는 길에 있는 SK 주유소를 찾았어요. 몇 번째 장소로 갈까요?”

  1. 다양한 시나리오 지원 + 알아듣기 쉽도록 대화 구성 필요
    : 구어체로 발화되는 명령이다 보니 사용자의 상황/의도에 대한 다양한 고려가 필요하고,
    운전 중에도 사용자가 기억할 수 있도록 TTS 응답 최적화가 필요하다
  1. Dialog Mode 상황에서 자연스럽게 답을 유도하는 문장으로 종결

“ 여기로 가시려면 ‘안내 시작’이라고 말씀하세요” → “ 안내 시작”

몇 번째 장소로 갈까요?” → “첫 번째”

누구에게 전화를 걸까요? → “엄마

 

발화 확장 및 학습

시나리오와 TTS 응답 설계가 완료되었다면 더 많은 경우의 수를 고려할 수 있도록 인공지능을 학습시켜야 합니다.

  1. 대표 발화 지정 후, 언어학적 규칙을 통해 확장하기
    : 구어체로 명령을 해도 동작되도록 정의하고, 가이드를 제공한다.“광화문으로 가자” 을(를), (으)로, 까지 + 안내 시작, 길 안내, 안내, 가자, 찾아줘, 검색해줘
  2. 최대한 모으자
    :
    상황을 가정하고 되도록 많은 사용자에게 물어보고 발화 예시를 수집해야 한다.
    “이런 상황이라면 AI한테 뭐라고 얘기하시겠어요?”

GUI /모션 디자인

  1. 잠깐씩 glance해도 정보를 이해할 수 있도록 디자인 한다.
    파란색 : 말하는 상태 / 빨간색 : 에러 / 도트 모션 인터랙션 : 인식 및 검색 중09

TESTING

서비스가 옳은 방향으로 향하고 있는지 테스트를 진행해야 하며 이러한 테스트는 전 과정에서 유용한 사용성 테스트 방법을 선택하여 진행합니다.

  1. 컨셉/방향성 검증
    : 컨셉을 프로토타입 하여 이해관계자에게 공유하고 이해 목적으로 활용
    (프로토타이핑 툴 Framer 활용)
  2. Voice Wake-up 적합성 테스트 (시작 명령어)
    : 음성으로 하는 wake up의 인식률 및 품질 제고를 위한 과정
    운전 상황의 다양한 변수를 놓고 적합성 테스트 (실제 차 안에서의 테스트 진행)
  3. 운전 상황 UT
    : Key Task 프로토타입 (protopie활용)
    wizard of Oz 방법론으로 시나리오 및 인터페이스 사용성 검증하고 수정 반영.
  4. CBT (Dog Fooding)
    : 2번에 걸쳐 진행 400여명, 최종 수정에 반영 (사내 이용 테스트 진행)
    * Closed beta Test: 정식 서비스화 하기 전에 베타 테스트를 진행하는 것.

 

결과

17년 9월 7일 출시 이후 570만 명 이상 AI 기능 사용 경험이 있고(18년 2월 28일 SK 내부 조사), 내비게이션 만으로 더 이상 힘들 것이라 생각했던 사용자 수가 증대되었습니다.

 

알게 된 점

  • 음성 효용성이 낮은 기능들도 많이 쓴다.
  • 사용자들은 생각보다 훨씬 성격이 급하다
  • 사용자들은 생각보다 금세 학습한다.
  • 의외로 chitchat 기능을 많이 사용한다

장소 검색 (55.6%) > 전화 걸기 (14.9%) > 멜론 (10.9%) > 집으로 (1.5%) > 칫쳇 (2.8%)

 

맺음말

SK텔레콤의 강의를 들으면서 전체적인 VUX를 디자인하는 과정이 UX 디자인을 하는 과정과 크게 다르지 않음을 알 수 있었습니다. 늘 그 중심에는 사용자에 대한 고려가 있습니다. 다만 T map 사례에서는 차 안에서 운전하는 Context와 음성이라는 기술에 대한 다양한 제약 사항과 시나리오를 고려해야 함을 알 수 있었습니다. 아직은 인공지능이 아닌 인간지능이 필요한 상황이지만, 이러한 전문가들의 노력이 더 나은 세상을 만들 수 있기를 기대하며 강의 내용 정리를 마칩니다.

본 내용은 ‘T map x NUGU 음성 인터페이스 디자인 사례_이남민, 한보람 SK텔레콤’의 내용을 재구성하였습니다.

 

– 가치UX그룹 윤소연