마케팅 분석에서의 대수(Logarithms)의 실용 가이드

대수(Logarithms)의 역사

대수(logarithms)는 1614년, 20년 동안 손으로 로그표를 작성하던 스코틀랜드의 수학자 존 네이피어(John Napier)에 의해 발명되었다. 그의 목표는 실용성이었는데, 당시 천문학자와 항해사들은 곱셈 계산에 시달리고 있었다. 행성의 위치나 배의 위치를 계산하려면 큰 숫자들을 곱해야 했고, 단 한 번의 산술 오류만으로도 계산 결과가 엉망이 될 수 있었다. 네이피어는 곱셈을 덧셈으로 바꿀 수만 있다면 작업이 훨씬 쉬워질 것이라고 깨달았고, 로그가 바로 이를 가능하게 한 도구였다.

수학자 헨리 브릭스는 네이피어의 책을 읽고 그 중요성을 인식하고 에든버러에서 만났다. 두 사람은 함께 이 아이디어를 발전시켜 오늘날 우리가 ‘일반 로그’ 또는 ‘10진 로그’라고 부르는 체계를 완성했다. 이 후 브릭스는 1617년에 최초의 일반 로그 표를 출판했고, 불과 수십 년 만에 로그 표는 유럽 전역으로 퍼져 나갔으며, 큰 수의 계산을 하는 이들에게 필수적인 도구가 되었다.

1622년, 윌리엄 오트레드(William Oughtred)가 발명한 슬라이드 룰이 등장했다. 이는 대수 개념을 물리적으로 구현한 것이었다. 두 개의 로그 눈금을 나란히 배치하고 서로를 미끄러뜨리면서 길이를 더하는 방식으로 숫자를 곱할 수 있었다. 이후 350년 동안 슬라이드 룰은 엔지니어와 과학자들에게 주된 계산 도구로 자리 잡았으며, 증기 기관 시대부터 항공기, 교량, 우주선 설계에 이르기까지 수많은 주요 공학 프로젝트에 활용되었다.

이후 레온하르트 오일러(Leonhard Euler)는 수학적 해석학의 맥락에서 자연로그를 대중화하고 체계화했습니다. 자연로그는 무리수 e(약 2.718)를 밑으로 사용하는데, 덕분에 증가, 감소, 미적분학에 관한 수학적 표현이 특히 간결해집니다. 자연로그는 ln으로 표기됩니다. 이것이 왜 중요한지에 대해서는 잠시 후에 다시 다루겠습니다.

오늘날 계산기와 컴퓨터가 실제 계산을 담당하기 때문에, 대부분의 사람들은 로그 표를 볼 일이 거의 없습니다. 하지만 그 기반이 되는 수학은 사라진 것이 아닙니다. 단지 책상 위에서 대시보드 뒤편에서 작동하는 알고리즘 속으로 자리를 옮겼을 뿐입니다.

로그란 무엇인가?

log₁₀(1000)이라고 쓰면, 1000을 얻기 위해 10을 몇 제곱해야 하는지 묻는 것입니다. 정답은 3입니다. 왜냐하면 10³ = 1000이기 때문입니다. 이를 일련의 곱셈으로 볼 수도 있습니다. 10 × 10 × 10 = 1000입니다. log₂(8)을 쓰면, 8을 얻기 위해 2를 몇 제곱해야 하는지 묻는 것입니다. 답은 3입니다. 왜냐하면 2³ = 2 × 2 × 2 = 8이기 때문입니다.

더 진행하기 전에 몇 가지 용어를 먼저 알아봅시다. 10³을 쓸 때, 10은 기수(base)입니다. 위에 있는 작은 숫자 3은 지수(exponent)입니다. 이 전체를 “10의 3승”이라고 읽으며, 그 결과는 1,000입니다. 따라서 기수는 10, 지수는 3, 그리고 3승의 결과는 1,000입니다. 일상적인 용어에서는 사람들이 “지수”와 “승수”를 혼용하는 경우가 많습니다. 엄밀히 말하면 지수는 위에 있는 작은 숫자이고, 승수는 그 결과로 얻어지는 값입니다.

대수(로그값, logarithm)는 지수의 역함수입니다. 지수는 기수와 지수를 입력으로 받아 결과를 산출합니다. 대수는 그 결과와 기수를 입력으로 받아 지수를 산출하는데, 이는 곱셈과 나눗셈의 관계와 매우 유사합니다.

마케팅 담당자에게 유용한 것은 로그가 ‘크기 규모’를 측정한다는 점입니다. ‘크기 규모’란 단순히 “이 숫자가 대략 얼마나 큰가?”를 우아하게 표현한 것에 불과합니다. 두 숫자가 “같은 크기 규모에 있다”고 말할 때는 두 숫자의 자릿수가 대략 비슷하다는 뜻입니다. 한 숫자가 다른 숫자보다 “크기 규모로 한 단계 더 크다”고 말할 때는 대략 10배 더 크다는 의미입니다.

어떤 수의 log₁₀은 그 수의 크기(규모)를 나타냅니다. 정수의 경우, 이는 자릿수와 밀접한 관련이 있지만, 엄밀히 말하면 자릿수는 log의 정수 부분보다 1 더 많습니다. log₁₀(100)은 2입니다. log₁₀(1,000)은 3입니다. log₁₀(1,000,000)은 6입니다. 로그 값에 1을 더하면 원래 수에 10을 곱한 값이 됩니다. 로그 함수는 넓은 범위를 압축합니다. 고객 수가 1,000명에서 1,000,000명으로 늘어나는 것은 절대 수치로는 엄청난 증가이지만, 로그 척도에서는 단 3단위에 불과합니다.

위 그림의 왼쪽은 기업 규모별 고객 수를 계단식으로 나타낸 것으로, 10배 증가할 때마다 간격이 균일한 한 단계씩 표시되어 있습니다. 오른쪽은 동일한 7개 기업을 차트에 표시했을 때의 모습을 보여줍니다. 선형 척도에서는 7개 점 중 6개가 0에 밀려나 버리고, 오직 소비재 대기업만이 눈에 띄는 높이에 위치합니다. 반면 로그 척도에서는 동일한 데이터가 깔끔한 대각선을 이룹니다.

이러한 압축 효과 덕분에 로그 척도는 마케팅 분석 분야에서 유용하게 활용됩니다. 마케팅 분석에서 다루는 수치는 종종 수십 배에서 수백 배에 이르는 광범위한 범위를 보이기 때문입니다. 광고 비용은 스타트업의 월 5,000달러에서 대기업의 5,000만 달러에 이르기까지 다양합니다. 웹사이트 트래픽, 매출, 고객 생애 가치 및 대부분의 다른 비즈니스 지표 역시 기업 규모에 따라 이처럼 광범위한 차이를 보입니다. 일반 차트로는 이러한 범위를 표현할 수 없지만, 로그 척도라면 가능합니다.

그래프에서 로그 척도를 언급할 때, 우리는 ‘크기 단위(order of magnitude)’를 표시하는 것을 의미합니다. 회귀 분석에서 로그 변환을 다룰 때는 대개 크기 단위가 크게 다른 변수들을 다루게 됩니다. 로그우도(log-likelihood)를 논할 때 로그가 유용한 주된 이유는, 로그가 방대한 확률 범위를 다루기 쉬운 수준으로 압축해 주기 때문입니다. 크기 단위는 이 모든 과정을 관통하는 핵심 개념입니다.

다른 척도와 비교한 로그

로그함수의 작동 원리를 직관적으로 이해하는 가장 빠른 방법은 다른 형태의 그래프와 나란히 비교해 보는 것입니다. 대부분의 마케터는 스프레드시트, 예산, 그리고 대부분의 비즈니스 보고서가 그런 방식으로 작동하기 때문에 선형적인 사고방식에 익숙합니다. 매 기간 일정 금액을 더하거나, 일정 금액을 빼거나, 고정된 기준치의 백분율을 계산하는 식이죠. 이것이 바로 선형적 사고이며, 대부분의 경우 이 방식으로도 충분합니다.

하지만 많은 마케팅 데이터는 선형적인 양상을 보이지 않습니다. 성공적인 제품의 경우 고객 증가율은 기하급수적으로 늘어납니다. 광고비는 한계 효용이 감소하는 경향을 보입니다. 네트워크가 확장됨에 따라 네트워크 효과는 가속화됩니다. 고객별 매출 분포는 편중되어 있어, 소수의 계정이 전체 가치의 대부분을 창출합니다. 이러한 각 패턴은 직선이 아닌 고유한 형태를 띠며, 그 형태는 현재 상황을 이해하는 데 중요한 단서를 제공합니다.

다음은 알아두면 좋은 네 가지 수학적 형태입니다.

선형 관계는 매 단계마다 일정한 값을 더합니다 (1, 2, 3, 4, 5).
지수 관계는 매 단계마다 일정한 배수를 곱합니다 (1, 2, 4, 8, 16).
제곱 관계는 입력값을 고정된 지수만큼 제곱합니다 (x²의 경우 1, 4, 9, 16, 25) .
대수적 관계는 지수적 관계와 반대되는 성질을 가지며, 입력값이 크게 증가해도 출력값은 소폭만 증가합니다(10, 100, 1,000, 10,000의 로그 값은 각각 1, 2, 3, 4에 불과합니다).

위의 그림에서 볼 수 있듯이, 네 가지 곡선 형태는 차트상에서 각각 완전히 다른 모습을 보입니다. 선형 곡선은 일직선입니다. 지수 곡선은 처음에는 완만하게 시작하다가 급격히 치솟는데, 이것이 바로 사람들이 급성장하는 현상을 설명할 때 “지수적 성장”이라는 표현을 사용하는 이유입니다. 지수 곡선도 가속되지만 그 속도는 더 완만합니다. 로그 곡선은 그 반대입니다. 처음에는 빠르게 상승하다가 점차 완만해지는데, 이것이 바로 ‘수확체감’ 현상의 전형적인 모습입니다.

데이터가 지수 함수적 성장 양상을 보인다면, 이를 선형 차트에 표시하면 초기 성장 추세의 대부분이 가려지고 후기 성장 추세가 하키 스틱 모양처럼 보이게 됩니다. 데이터가 로그 함수적이라면, 여기에 선형 회귀 분석을 적용하면 오해의 소지가 있는 계수가 도출됩니다. 이러한 패턴을 파악할 수 있다면, 적절한 척도와 변환 방식을 선택하고 현재 일어나고 있는 현상을 올바르게 설명할 수 있습니다.

세 가지 일반적인 로그의 기수

로그에는 반드시 기수가 있어야 합니다. 앞서 언급했듯이, 기수란 입력값을 구하기 위해 지수로 올리는 수를 말합니다. 지금까지 이 글의 대부분의 예시에서 log₁₀을 사용해 왔는데, 이는 크기의 차원을 생각할 때 가장 직관적이기 때문입니다. 하지만 마케팅 분석 분야에서는 세 가지의 일반적인 로그 기수가 사용되며, 각각 고유한 관례와 맥락을 가지고 있습니다.

10을 밑으로 하는 로그(log₁₀ 또는 간단히 “로그”)

이것이 바로 일상에서 흔히 접하는 로그입니다. 이는 숫자의 크기(크기 등급)를 나타내며, 이는 숫자의 자릿수와 밀접한 관련이 있습니다. 금융 분석, 과학 저널, 그리고 로그 척도를 언급하는 대부분의 블로그 게시물에서 로그 척도 차트에 사용되는 것이 바로 이 로그입니다. 그래프의 y축에 1, 10, 100, 1,000, 10,000이 균등한 간격으로 표시되어 있다면, 이는 로그₁₀ 척도입니다. 소리의 데시벨 척도, 지진의 리히터 척도, 산도의 pH 척도 등은 모두 log₁₀ 척도입니다.

2진 로그(log₂)

이는 컴퓨터 과학과 정보 이론에서 자주 등장하는 로그입니다. 각 단계는 10배 증가가 아닌 2배 증가를 나타냅니다. 2의 제곱으로 확장되는 요소(메모리 용량, 파일 압축, 이진 트리의 깊이, A/B 테스트 변수 수 등)를 다룰 때는 일반적으로 log₂가 사용됩니다. 또한 의사결정 트리 및 기타 기계 학습(ML) 알고리즘의 배후에 있는 엔트로피 계산에서도 나타납니다. 마케팅 담당자들은 일반적으로 다른 두 기수만큼 log₂를 자주 접하지는 않지만, 기술적인 맥락에서 등장할 때 이를 알고 있으면 도움이 됩니다.

자연 로그(ln, 기수 e)

이는 통계학, 회귀 분석, 기계 학습 등 거의 모든 분야에서 등장하는 로그입니다. 그 기수는 무리수 e로, 대략 2.718입니다. e라는 수는 1683년 야콥 베르누이가 복리 이자를 계산하던 중 발견했습니다. 1달러에 100% 이자가 붙는다고 가정해 봅시다. 이자가 1년에 한 번 복리 계산되면 최종 금액은 2달러가 됩니다. 분기별로 복리 계산하면 2.44달러, 매일 복리 계산하면 2.71달러가 됩니다. 복리 계산 주기가 짧아질수록 결과는 특정 수인 e(약 2.71828)에 가까워집니다. 나중에 레온하르트 오일러는 e를 기본 상수로 확립하고 오늘날 우리가 사용하는 기호를 부여하는 심도 있는 수학적 연구를 수행했습니다. 이것이 바로 우리가 e를 오일러의 수라고 부르는 이유입니다. 이 수 e는 인구 동태학에서 방사성 붕괴, 머신러닝의 기초가 되는 미적분학에 이르기까지, 지속적인 증가나 감소가 나타나는 모든 곳에서 발견되는 것으로 밝혀졌습니다.

수학적으로 e는 n이 무한히 커질 때 (1 + 1/n)^n의 극한으로 정의되지만, 복리 예시는 이러한 수학적 표기법 없이도 동일한 개념을 잘 설명해 줍니다.

‘e’를 특별하게 만드는 점은 미묘하지만 중요합니다. 복리 이자, 바이러스성 확산, 또는 실시간으로 누적되는 고객 생애 가치처럼 무언가가 지속적으로 성장할 때, 어느 순간의 성장률은 현재의 규모에 비례합니다. ‘e’는 바로 그 비례 관계가 정확히 1이 되는 유일한 수입니다. 다른 모든 기수는 수학적 계산을 복잡하게 만드는 미세한 보정 계수를 도입합니다. 이것이 바로 성장과 감쇠가 관련된 모든 곳에서 e가 등장하는 이유이며, 이러한 과정을 모델링하는 회귀 분석, 통계학, 머신러닝에서 ln이 기본값으로 사용되는 이유입니다. 변수가 로그 변환된 회귀 모델을 볼 때, 그 로그 함수는 거의 항상 ln입니다. 로그 우도(log-likelihood)를 볼 때도 그 로그 함수는 ln입니다. 통계학이나 머신러닝 논문을 읽다가 “log”라는 단어를 접하면, 이는 거의 항상 ln을 의미합니다.

안타깝게도 로그 표기법은 표준화되어 있지 않습니다. 엑셀, 대부분의 계산기, 그리고 기술적 맥락이 아닌 대부분의 상황에서는 ‘log’를 log₁₀을 의미하는 것으로 사용합니다. 반면 파이썬, R, MATLAB 및 대부분의 통계학 교과서에서는 ‘log’를 ln을 의미하는 것으로 사용합니다. 회귀 계수가 실제보다 10배나 작거나 크게 보이는 이유를 궁금해한다면, 가장 먼저 확인해야 할 것은 사용 중인 소프트웨어가 어떤 로그 함수를 사용하고 있는지입니다.

기수 변환은 간단합니다: log_b(x) = ln(x) / ln(b). 소프트웨어는 이를 자동으로 처리하지만, 이 공식은 log₁₀ 축에 그려진 곡선이 log₂ 또는 ln 축에 그려진 동일한 곡선과 왜 똑같이 보이는지 설명해 줍니다. 이들은 근본적으로 동일한 모양을 가진, 단지 축척이 조정된 버전일 뿐입니다

일반적인 로그 눈금

로그 척도는 사람들이 생각하는 것보다 일상적인 측정 시스템에서 훨씬 더 자주 등장합니다. 이는 측정 대상의 크기가 여러 차원의 범위를 아우를 때 사용되는 표준 도구입니다. 대부분은 10진법이지만, 일부는 다른 기수를 사용하기도 합니다.

음압을 나타내는 데시벨(log₁₀, 10dB 증가할 때마다 소리가 10배 커짐)
지진을 나타내는 리히터 규모 (log₁₀, 각 단계마다 방출되는 에너지가 대략 32배 증가)
산도를 나타내는 pH (log₁₀, 각 단위마다 산도가 10배 강해짐)
천문학에서 별의 밝기를 나타내는 별의 등급 (기수 ~2.512, 5단계마다 밝기가 100배 증가)
사진 촬영의 조리개 값(F-stop, log₂, 각 단계마다 빛의 양이 두 배로 늘어나거나 절반으로 줄어듦)

이것이 바로 50 dB 소리가 30 dB 소리보다 단순히 “조금 더 큰” 것이 아니라 100배 더 크고, 7.0 규모의 지진이 5.0 규모 지진보다 훨씬 더 많은 에너지를 방출하는 이유입니다. 로그 척도는 여러 차원의 크기를 아우르는 측정을 처리하는 방법입니다.

<출처: https://medium.com/@marketingdatascience/logarithms-in-marketing-analytics-a-practical-guide-e2ad13d67db4>

저작자표시 비영리 동일조건 (새창열림)

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

데이터 아키텍쳐의 과거, 현재, 미래 (0)	2026.05.15
마케팅 분석에서의 대수(Logarithms)의 실용 가이드 - part 2 (0)	2026.05.14
데이터 레이크 vs. 데이터 웨어하우스(Data Lakes vs. Data Warehouses) (0)	2026.05.13
데이터베이스의 진화: 데이터 플랫폼 - Part 3 (0)	2026.05.09
데이터베이스의 진화: 데이터 플랫폼 - Part 2 (0)	2026.05.09

시계열, Plotly, 폴라스, DuckDB를 사용한 데이터 분석

마케팅 분석에서의 대수(Logarithms)의 실용 가이드 - part 1

대수(Logarithms)의 역사

로그란 무엇인가?

다른 척도와 비교한 로그