벤포드의 법칙

수학노트
http://bomber0.myid.net/ (토론)님의 2009년 7월 11일 (토) 17:20 판
둘러보기로 가기 검색하러 가기
간단한 소개
  • 수로 구성된 많은 데이터에서, 첫째 자리에 오는 숫자가 고르게 분포되어 있지 않은 현상
  • 단위불변성(scale invariance)이 핵심적인 성질

 

[1]

미국의 수학자이자 천문학자인 사이먼 뉴컴(Simon Newcomb)은, 다른 사람과 함께 쓰던 로그책에서 책의 앞부분이 훨씬 낡아 있는 것을 눈치채었다.

로그표는 수가 커지는 순서대로 배열되어 있다. 그러므로 위 결과는, 실제 계산에서는 맨 앞자리수가 큰 숫자보다, 맨 앞자리수가 작은 수가 더 많이 쓰인다는 사실을 말해 준다.

통상의 계산에서, 계산량이 많아지면 모든 크기의 수가 고르게 사용될텐데, 왜 이 수들의 최대 유효숫자는 이렇지 않을까?

Newcomb 은 다음과 같은 경험법칙을 얻는다.

  • 첫 유효숫자 \(d\) 로 시작하는 수의 비율은, (10진법에서) 1/9 가 아니라 \(\log(1 + 1/d)\) 와 같이 나타난다

이 사실을 그는 American Journal of Mathematics 에 간략하게 실었으나, 수학적 분석이 없었으므로 별 주목을 받지 못했음. (1881)

\(d\) 직관적 확률 경험적 확률
\(1\) \(0.111\cdots\) \(0.30103\)
\(2\) \(0.111\cdots\) \(0.17609\)
\(3\) \(0.111\cdots\) \(0.12494\)
\(4\) \(0.111\cdots\) \(0.09691\)
\(5\) \(0.111\cdots\) \(0.07918\)
\(6\) \(0.111\cdots\) \(0.06695\)
\(7\) \(0.111\cdots\) \(0.05799\)
\(8\) \(0.111\cdots\) \(0.05115\)
\(9\) \(0.111\cdots\) \(0.04578\)

(출처 필요)

 

[2]

1938 년 미국 GE 의 물리학자 프랭크 벤포드(Frank Benford)가, 위의 뉴컴(Newcomb이 발견한 것과 정확히 같은 양상 - 즉 곧 첫 유효숫자의 분포는 \(\log(1 + 1/d)\) 와 같이 나타난다 - 을 재발견했다.

벤포드는 경험적 검증을 위해, 강의 넓이, 사망률, 야구 통계 등 전혀 무관한 임의의 20000 여개의 숫자들를 분석했다. 결과는 경험 법칙을 지지하는 방향으로 나타났다. (출처 필요)

 

[3]

많은 숫자의 나열이 벤포드 법칙을 따르지는 않는다. 극도로 임의적이거나, 정규분포나 균일 분포를 따르는 숫자의 나열이 그러하다.

자료가 벤포드 법칙을 따르려면 꼭 들어맞는 구조를 갖추어야 할 것으로 보인다.

 

어떤 분포를 임의로 골라서, 이 분포들에서 임의로 자료를 모으면, 각 분포들 자체는 그렇지 않더라도, 이렇게 결합된 자료는 벤포드 법칙을 따른다는 것을 1996년 힐이 보였다. (출처 필요)

 

[4]

단위 불변성은 벤포드 법칙을 함축한다.

단위불변성은, 임의의 환산 인자 \(k\) 를 곱했을 때도 자료에 남아 있는 성질이다.

 

관찰

고르게 고른 숫자들에 2를 곱한 자료를 생각해 보자.

 

[1, 1.5) 2
[1.5, 2) 3
[2, 2.5) 4
[2.5, 3) 5
[3, 3.5) 6
[3.5, 4) 7
[4, 4.5) 8
[4.5, 5) 9
[5, 10) 1

위를 보면 알 수 있듯이, 첫 유효숫자의 분포는 고르지 않다. 첫자리에 1 이 올 확률은 나머지 2~9 가 올 확률의 합과 같다.

여기에서, 고르게 고른 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.

 

 

단위불변성(scale invariance)
  • 측정의 단위가 변해도, 분포가 변하지 않는 것을 일컫는다.
  • 확률변수 \(X\) 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성(Scale invariance)을 가진다고 하자.

 

정리

단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다.

 

(증명)

확률변수 \(X\)에 대한 확률밀도함수 \(\phi (x) \) 를, \(P(a \le X \le b) = \int_{a}^{b}\phi(x)dx\) 와 같이 정의하고, 누적밀도함수 \(\Phi(x)\) 를 \(\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt\) 와 같이 정의하자.

 

그렇다면 확률변수 \(X\) 는 \(P( a < X < x) = P(ka < X < kx)\) 와 같은 성질을 만족한다. 여기서 \(a\) 는 고정된 상수이고, \(x\) 는 변수, \(k\) 는 환산인자이다.

 

그러므로, 우리는 \(\Phi(kx) - \Phi(ka) = \Phi(x) - \Phi(a)\) 를 얻고, 미분하면 \(k\phi(kx) = \phi(x)\) 를 얻는다.

 

확률변수 \(X\) 에 대해, 다시 확률변수 \(Y = \log_{b}X\) 를 정의하자. 그리고 \(Y\) 에 대해, \(\psi (y)\) 와 \(\Psi(y)\) 를 위의 확률변수 \(X\) 에서와 같이 정의하자.

그러면 \(\Psi(y) = P(Y \le y) = P(\log_b X \le y) = P(X \le b^y ) = \Phi(b^y) = \Phi(x)\) 이므로, \(\Psi(y) = \Phi(x)\) 이다. 여기에서

\(\psi(y) = \frac{d}{dy}\Phi(x) = \frac{dx}{dy}\phi(x)\) 를 얻고, 따라서 조금 정리하면 \(\psi( \log_b x) = x\phi(x) \ln{b}\) 를 얻을 수 있다

\(k\phi(kx) = \phi(x)\) 에서, \(x \phi(x) = \phi(1)\) 이므로, 결국 \(\psi\) 는 상수함수임을 알 수 있다. (증명끝)

 

 

단위불변성을 통한 벤포드 법칙의 유도   

여기에서 벤포드 법칙을 이끌어낼 수 있다.

수 \(n\) 의 맨 왼쪽 수를 \(d\) 라 하자. 환산 인자를 \(n\) 에 곱할 때마다 첫 유효 숫자는 법 10 에서 변한다.

로그의 밑 \(b\) 를 \(b = 10\) 으로 삼으면, \(\log_{10}x\) 는 \(0 \le x \le 1\) 에서, 상수 1 의 확률밀도함수를 가질 것이다.

그러므로 단위불변성을 가정하면, \(n = 1, 2, \cdots, 9\) 에 대해

\(\begin{tabular}{ll} $ P(d = n) $&$ = P(n \le x < n+1 )$ \\ & $= P(\log_{10} n \le \log_{10}x < \log_{10}(n+1)\ )$\\ & $=P(\log_{10}n \le y < \log_{10}(n+1) )$ \\ & =\log_{10}(n+1) - \log_{10}{n} = \log_{10}(1 + \frac{1}{n}) \end{tabular}\)

를 얻고, 이것은 벤포드 법칙과 같다.

 

여기에서, 단위불변성을 가지는 자료는 벤포드 법칙을 만족함을 알 수 있다.

 

재미있는 사실

동일한 접근 방식으로 둘째 유효숫자에 대한 분석을 할 수도 있다. 둘째 유효숫자에서 가장 많이 나타나는 수는 0 인데, 빈도는 11.97% 정도 된다.

피보나치 수열도 벤포드 법칙을 따르는 것으로 보인다.

알파 붕괴의 반감기는 이론과 관측에서 벤포드 법칙을 따른다는 것이 확인되었다.

여러 회계 자료들도 벤포드 법칙을 잘 따른다. 사실 이것을 이용하여, 벤포드 법칙을 통해 숫자들의 패턴을 분석하면, 숫자 조작, 사기, 오류, 자료에 내재된 편견 등을 검증할 수도 있다.

  • 미드 numb3rs의 두번째 시즌 15번째 에피소드에 등장

 

역사
많이 나오는 질문과 답변

 

관련된 고교수학 또는 대학수학

 

관련된 다른 주제들

 

관련도서 및 추천도서
  • The art of computer programming
    • Donald Knuth

한 기업의 회계관이 디지털분석법을 사용하여 의료부서의 책임자가 제출한 청구서를 점검한 결과 뭔가 이상한 점을 발견했다. 의료 관련 지출서의 첫 두 유효숫자가 벤포드법칙을 따르는지 조사했더니 65로 시작되는 숫자들이 특별히 높은 값을 보였다. 그래서 6500달러에서 6599달러 사이의 수표들에 대한 회계감사를 실시한 결과, 책임자가 처리한 심장수술 청구서가 허위였으며 그 돈은 책임자가 착복한 것으로 밝혀졌다. 

- 14장 로그가 넘치는 세상, 244쪽

 

 

참고할만한 자료


Knuth97 (sect. 4.2)

D. E. Knuth, Seminumerical algorithms, 3rd edition, The Art of Computer Programming volume 2, Addison-Wesley, Reading MA, 1997. [This book is an excellent reference for anyone interested in the basic aspects of programming the algorithms mentioned in these pages.]

Matthews1999

R. Matthews, "The power of one," New Scientist, (1999) 26--30.  10 July. [A simple account of Benford's law.]

Nigrini1992

M. Nigrini, "The detection of income evasion through an analysis of digital distributions," Ph.D. thesis, Dept. of Accounting, Univ. Cincinnati, Cincinnati OH, (1992)

Nigrini1996

M. Nigrini, "A taxpayer compliance application of Benford's law," J. Amer. Taxation Assoc., 18 (1996) 72--91.

Raimi1976

R. A. Raimi, "The first digit problem," Amer. Math. Monthly, 83:7 (1976) 521--538.  MR 53:14593

 

관련기사

 

 

블로그

 

이미지 검색