Dolby Atmos Music—믹스가 끝난 후

By in 분류되지 않음, 오디오

Dolby Atmos Music 믹스를 끝내고 Dolby Atmos® Renderer나 Pro Tools에서 ADM 바운스를 마친 다음, AvidPlay에도 결과물을 올렸습니다. 그러면 그 다음은 무엇일까요? 내가 만든 믹스는 어떻게 해서 청취자에게 전달될까요? 전달 방식의 차이는 최종 사용자가 경험하는 믹스 사운드에 어떤 영향을 미칠까요? 이와 같은 사전 지식이 있다면 믹싱 과정에서 보다 정확하고 합리적인 의사결정이 가능할 것입니다. 이번 블로그를 통해 함께 알아보겠습니다.

전달

청취자에게 Dolby Atmos 믹스를 전달하는 데는 스피커와 헤드폰의 두 가지 방식이 있습니다(스피커는 별도의 어레이 또는 사운드바 등으로 구성 가능). 각 방식에 대한 지식이 늘어날수록 인코딩 과정에서의 방식별 차이, 그리고 Dolby Atmos 뮤직 믹싱에 대한 접근 방식도 더 잘 이해하게 됩니다.

스피커는 독자적으로 소리를 재현할 수 있습니다. 따라서 몰입감 있는 경험을 위해 어떠한 것도 에뮬레이션할 필요가 없습니다. 그러나 헤드폰은 이야기가 다릅니다. 헤드폰에서 몰입형 믹스를 제공하려면 바이노럴 렌더링이 반드시 필요합니다.

아래는 바이노럴 오디오의 기본에 관한 포괄적인 설명입니다.

두 가지 재생 형식을 위해 설계된 2개의 대표적인 코덱이 있는데, 바로 스피커 전달을 위한 EC-3, 그리고 헤드폰 전달을 위한 AC-4 IMS입니다. 하지만 말처럼 그렇게 간단하지가 않은데, 이유는 뒤에서 다시 살펴보겠습니다. 우리는 당연히 음원의 최종 소비자에게 들리는 것과 가능한 가장 가까운 사운드로 믹스를 확인할 수 있기를 원하는데, 이번 블로그의 뒷부분에서 다시 설명하도록 하겠습니다.

여기서 더 나아가기 전에, 무엇보다 데이터를 왜 압축해야 하는지부터 이해하고 진행하는 편이 좋겠습니다.

데이터 용량을 왜 줄여야 할까?

소비자에게 전달되는 데이터의 크기를 줄이는 과정은 아주 중요합니다. 원본 데이터 스트림은 너무 용량이 크기 때문입니다. 4분 30초 길이의 Dolby Atmos 음원을 예로 들면, 포함된 객체 수에 따라 약 1.8~2.5GB의 용량이 나옵니다. 그렇다면 Dolby Atmos 데이터 스트림 하나를 전송하는 데 얼마의 대역폭이 필요할까요? 간단한 방정식 [ 48000*24*128/(1024*1024) ] 연산으로 140.625Mbps의 데이터 비율을 확인할 수 있습니다. 이는 오디오 스트리밍에서 처리하기 힘든 대역폭이기 때문에, 전송하는 데이터 용량을 줄여야만 합니다. 그러기 위해서는 클러스터링, 그리고 인코딩의 두 단계가 필요합니다.

클러스터링

데이터 스트림의 용량을 줄이는 첫 번째 단계는 클러스터링(군집화)입니다. 클러스터링은 인코딩 단계에서 객체와 베드가 소모한 데이터 용량을 줄이는 데 쓰입니다. 하지만 Dolby Atmos Renderer에서 Spatial Coding Emulation(공간 코딩 에뮬레이션)을 활성화하면 클러스터링이 적용된 믹스도 모니터링이 가능합니다.

클러스터링의 기본 원칙은 비슷한 공간적 위치를 갖는 객체들을 최적화된 그룹 형태인 소위 ‘공간 객체 그룹’으로 묶는 것입니다. 공간 객체 그룹이란 쉽게 말해 원본 오디오 객체들을 합쳐놓은 묶음입니다. 믹스 사운드 전반의 품질을 열화시키지 않으면서 그룹화가 가능한데, 이는 일반 소비자용 Dolby Atmos 구성이 극장용에 비해 훨씬 적은 수의 스피커를 사용하므로 공간 해상도를 줄일 수 있기 때문입니다.

클러스터링은 1970년대 즈음 등장한 ‘K-Center 문제’라는 흥미로운 개념에 일정 부분 기반을 두고 있습니다. 이런 상황을 한번 가정해볼까요? 어느 슈퍼마켓 체인점이 같은 지자체 안에 신규 매장을 내려고 하는데, 기존 매장은 15개가 있고 신규 출점 예산으로는 총 5개의 매장을 낼 수 있습니다. 아래 그림은 지자체 내 도시들의 위치입니다.

 

 

여기서 문제는, 인근 도시에서 매장까지 충분히 접근 가능한 거리를 확보하면서 각 도시별 중요도(인구, 행정수도 등)를 균형 있게 고려해 최적의 위치를 찾는 것입니다. 이를 위해서는 각 도시에서 가장 가까운 매장까지의 거리가 최소화되도록 배치해야 합니다. 아래는 각 매장 위치 선정의 예시입니다.

위 그림처럼 신규 출점할 도시를 선택하면 각 도시별로 가장 가까운 매장까지의 거리가 거의 비슷하게 맞춰진 것을 알 수 있습니다. 예시에서는 신규 매장의 수(5개)가 K값이며, 근사 알고리즘에 해당하는 ‘호크바움 슈모이스(Hochbaum Shmoys)’식 K-Center 문제를 접근방식으로 선택했습니다. 전달용 객체 수를 줄일 때도 이와 유사한 방식이 쓰입니다. 모니터링할 요소의 수는 Spatial Coding Emulation을 활성화한 상태의 Dolby Atmos Renderer 환경 설정에서 정해집니다. 여기에 관련된 값으로는 12, 14, 그리고 16의 세 가지가 있습니다. 아래 도표를 보면 좀 더 구체적으로 이해할 수 있습니다.

왼쪽의 그림에서는 객체가 파란색으로, 베드 위치가 빨간색 원으로 표시되어 있습니다. 총 10개의 객체, 9개의 베드 채널, 그리고 하나의 LFE 채널이 존재합니다. 클러스터 번호를 12라고 가정하면 어떤 방식으로 모이게 되는지 파악할 수 있습니다. 몇몇 객체들은 그룹으로 묶이고, 또 다른 일부는 복수의 클러스터가 함께 공유하는 식입니다. 이렇게 하면 총 트랙 수를 20에서 12로 줄일 수 있습니다. (엄밀히 따지면 LFE 채널은 위치 클러스터 없이 그대로 유지되는 셈이므로, 11개의 가용 클러스터에 LFE를 더한 형태가 되겠습니다)

이 클러스터링 기법을 사용하게 되면 비슷한 위치의 여러 사운드 소스를 그룹으로 묶는 이유를 이해할 수 있습니다. 청취자 입장에서는 그런 소스들을 개별적으로 감지하기가 어렵기 때문입니다. 중심이 되는 지점(K-Center)은 다른 몇몇 요소와 더불어 라우드니스(loudness, 음의 크기)에 따른 가중치를 받습니다. 라우드니스가 가장 큰 소스는 청취자에게 가장 큰 집중도를 끌면서 자신보다 작은 소리들을 가리기 때문에, 인근의 객체들이 그 소스를 중심으로 클러스터를 이룹니다. 상대적으로 레벨이 낮은 인근 소스들은 감각 인지 측면에서 투명한 상태가 됩니다.

클러스터링 알고리즘에 의해 생성되는 대표적인 위치들은 소스/객체의 원본 집합에 최적화할 수 있도록 초당 약 30~50회 정도 갱신됩니다. 이 과정을 ‘x’개의 라우드스피커에 대한 렌더링(클러스터)으로 생각할 수도 있지만, 라우드스피커의 위치가 항상 변하고 있다는 점을 고려해야 합니다. 선택은 공간 오류 메트릭(원본 소스의 위치를 얼마나 잘 유지하는가)에 따라 좌우되지만, 알고리즘은 클러스터들이 계속해서 이동하기 때문에 발생하는 아티팩트를 최소화하려는 시도를 하게 됩니다. 물론 가장 높은 수의 클러스터를 선택하면 최선의 결과를 얻을 수 있겠지만, 그러면 최종 전송 시점에 데이터의 양이 늘어납니다. 그리고 그만큼 더 높은 비트레이트가 필요하게 됩니다.

Spatial Coding Emulation을 이용한 믹스 모니터링은 아주 중요합니다. 객체의 크기, 위치, 구성요소의 수 등이 인코딩된 믹스 사운드에 어떤 영향을 미치는지 파악할 수 있기 때문입니다. 예컨대 객체의 크기를 늘려 20 정도를 넘어가게 되면, 동일한 객체가 하나 이상의 클러스터에 나타나거나 역상관(decorrelation) 아티팩트가 발생할 수 있으며, 그 결과 믹스 사운드를 왜곡할 수 있습니다. 또한 클러스터링은 객체, 내용, 위치, 라우드니스 등에 기반을 두므로, 모든 구성요소가 올바로 표시될 때까지는 절대 에뮬레이션을 활성화하지 말아야 합니다. 구성요소를 제대로 갖추지 않은 상태에서 옵션을 활성화하면 믹스 사운드가 어떻게 나올지 정확히 알 수 없게 됩니다. 마지막으로, Spatial Coding Emulation은 오직 모니터링 전용이라는 점을 반드시 기억할 필요가 있습니다. 클러스터링은 ADM이나 Dolby Atmos 마스터 파일로 저장되지 않습니다.

인코딩

클러스터로 묶인 신호를 인코딩해 파일 용량을 줄이는 단계가 이제 인코딩입니다. 인코딩 형식들을 살펴보면서 엔지니어의 입장에서 인코딩이 왜 중요한지 한번 생각해보도록 하겠습니다. 여기서는 가장 많이 쓰이는 두 가지 코덱, AC-4와 EC-3에 중점을 두도록 합니다.

AC-4 IMS – 헤드폰용 전달 형식

AC-4는 기존의 채널 기반 콘텐츠, 몰입형 채널 기반 콘텐츠, 객체 기반 몰입형 콘텐츠 및 개인화 지원 오디오에 쓰이는 오디오 코덱입니다. AC-4는 개별 객체, 또는 위에서 살펴본 공간 객체 그룹(Spatial Object Group) 형태로 객체 기반 콘텐츠를 지원합니다. AC-4 코덱은 A-JOC(Advanced Joint Object Coding) 방식을 사용해 객체를 처리하는데, 여기서는 믹스를 먼저 7.1 버전으로 다운믹스한 다음 객체의 상세정보를 메타데이터로 추가합니다. 그런 다음 재생 단계에서 디코딩이 들어갑니다.

AC-4는 스트리밍 플랫폼을 통해 Dolby Atmos 음원을 Android 기기로 전달할 때 쓰이는 코덱입니다. AC-4는 Dolby Atmos Music 믹스 과정에서 생성되는 바이노럴 메타데이터도 전달할 수 있기 때문에, 헤드폰으로 믹스를 재생하면 믹스 과정에서 설정한 바이노럴 속성을 청취자가 들을 수 있습니다.

EC-3 (Enhanced AC-3) – 스피커용 전달 형식

EC-3는 OTT 및 Apple 기기에 오디오를 전달할 때 쓰이는 인코딩 방식입니다. AC-4와 비교하면 DD+JOC, 즉 Dolby Digital Plus JOC(Joint Object Coding)라는 방식을 사용한다는 차이가 있습니다.

JOC는 객체 메타데이터를 다운믹스에 임베딩하는 방식으로서, 수신하는 쪽에서는 해당 메타데이터를 이용해 객체를 재구축할 수 있습니다.

JOC 인코딩 과정

JOC 디코딩 과정

Apple과 Amazon은 자사 기기들에 EC-3 코덱을 채용하고 있습니다. Apple TV 4K에서는 Atmos 호환 사운드바 또는 AV 리시버에 HDMI를 통해 오디오를 전송합니다. EC-3는 스피커 전달을 목적으로 설계된 형식이지만, Apple iPhone에서 헤드폰 전달용으로 쓰일 경우만은 예외적입니다. iPhone은 맞춤형 공간화 방식을 사용해 헤드폰으로 바이노럴 렌더링을 전달합니다.

이는 Apple Music용으로 Atmos 믹스를 오디션할 때 반드시 염두에 두어야 하는 중요한 정보입니다. Apple 기기들은 자체 사양에 맞춘 공간화 방식을 사용하기 때문에, 우리가 만든 ADM 파일에 내장된 Dolby Atmos 바이노럴 설정을 활용하지 않습니다. 그 대신 Dolby Atmos 파일을 5.1.4 믹스로 다운믹싱한 다음, 그 5.1.4 믹스를 바이노럴 믹스로 가상화함으로써 원본 믹스의 바이노럴 버전을 생성합니다. 현 시점에서는 Apple 기기에서 Dolby Atmos 믹스의 바이노럴 버전을 생성하는 데 적용하는 설정에 대해 공개된 정보가 전무하므로, iPhone 사용자에게 내가 의도한 믹스 사운드를 그대로 전달하려면 다음과 같은 단계를 거쳐야 합니다.

1. Dolby Renderer에서 MP4 내보내기: Dolby Renderer에서 마스터를 레코딩한 다음, File > Export Audio > MP4 메뉴에서 Music 설정을 선택하고 ‘확인’을 눌러 저장합니다.

2. 생성된 MP4 파일을 Apple 기기로 옮긴 다음 파일(Files) 앱에 저장합니다.

3. 기기의 파일 앱에서 MP4 파일을 재생하며 AirPod Pro 또는 AirPod Max 헤드폰으로 모니터링을 진행합니다. 이때 헤드 트래킹은 반드시 비활성화합니다.

AirPod Pro나 Max 외의 다른 헤드폰을 사용하면 MP4의 스테레오 다운믹스만 들리게 되며, 바이노럴 버전은 들을 수 없습니다.

지금까지 살펴본 내용을 어디에 어떻게 활용해야 하죠?

최종 청취자에게 여러분의 믹스가 전달될 때 어떤 과정을 거치는지를 알면 상당히 많은 부분에 도움이 됩니다. 중요한 핵심 내용은 이렇습니다:

1. 바이노럴 믹스에서 Near, Mid, Far 파라미터는 AC-4 코덱에서만 쓴다.

2. EC-3는 스피커 기반 형식이며, 재생 중 바이노럴 파라미터는 쓰이지 않는다.

3. Android 기기들은 대부분 AC-4 코덱을 사용한다.

4. Apple 기기들은 EC-3 코덱을 사용한다.

5. Atmos 객체의 크기값이 20 이상으로 늘어나면 공간 코딩 과정에 문제가 생길 수 있으므로 반드시 피해야 한다.

6. Spatial Coding Emulation은 반드시 모든 최종 믹스 요소의 배치가 끝난 후에 활성화해야 한다.

아무쪼록 이번에 소개한 정보들이 여러분께 유용하게 다가왔기를 바라며, 최종 결과가 어떻게 들릴지에 관한 사전 지식이 믹스에 많은 도움이 되었으면 합니다.

Discover Dolby Atmos Music

Dolby Atmos가 어떻게 여러분의 음악에 더 많은 공간, 선명도 및 깊이를 더하여 청취자에게 마치 음악 안에 들어와 있는것 같은 완전히 새로운 경험을 제공하는지 확인해 보십시오.

I am a Pro Audio Solution Specialist with Avid and an award winning Re-Recording mixer. I have worked on more than 200 films in various languages in my career from mono to Dolby Atmos. More than 1/3rd of my life has been cinema and I have great joy in sharing my techniques with everyone.