벤포드의 법칙
요기 있던 말은 0 우리끼리 생각 남기는 곳 으로 옮겨놓았음.
작업방식과 관련된 논의는 그곳에서
간단한 소개
- 수로 구성된 많은 데이터에서, 첫째 자리에 오는 숫자가 고르게 분포되어 있지 않은 현상
[1]
미국의 수학자이자 천문학자인 Simon Newcomb 은, 다른 사람과 함께 쓰던 로그책에서 책의 앞부분이 훨씬 낡아 있는 것을 눈치채었다.
로그표는 수가 커지는 순서대로 배열되어 있다. 그러므로 위 결과는, 실제 계산에서는 맨 앞자리수가 큰 숫자보다, 맨 앞자리수가 작은 수가 더 많이 쓰인다는 사실을 말해 준다.
통상의 계산에서, 계산량이 많아지면 모든 크기의 수가 고르게 사용될텐데, 왜 이 수들의 최대 유효숫자는 이렇지 않을까?
Newcomb 은 다음과 같은 경험법칙을 얻는다.
- 첫 유효숫자 \(d\) 로 시작하는 수의 비율은, (10진법에서) 1/9 가 아니라 \(\log(1 + 1/d)\) 와 같이 나타난다
이 사실을 그는 American Journal of Mathematics 에 간략하게 실었으나, 수학적 분석이 없었으므로 별 주목을 받지 못했음. (1881)
\(d\) | 직관적 확률 | 경험적 확률 |
---|---|---|
\(1\) | \(0.111\cdots\) | \(0.30103\) |
\(2\) | \(0.111\cdots\) | \(0.17609\) |
\(3\) | \(0.111\cdots\) | \(0.12494\) |
\(4\) | \(0.111\cdots\) | \(0.09691\) |
\(5\) | \(0.111\cdots\) | \(0.07918\) |
\(6\) | \(0.111\cdots\) | \(0.06695\) |
\(7\) | \(0.111\cdots\) | \(0.05799\) |
\(8\) | \(0.111\cdots\) | \(0.05115\) |
\(9\) | \(0.111\cdots\) | \(0.04578\) |
(출처 필요)
[2]
1938 년 미국 GE 의 물리학자 Frank Benford 가, 위의 Newcomb 가 발견한 것과 정확히 같은 양상 - 즉 곧 첫 유효숫자의 분포는 \(\log(1 + 1/d)\) 와 같이 나타난다 - 을 재발견했다.
벤포드는 경험적 검증을 위해, 강의 넓이, 사망률, 야구 통계 등 전혀 무관한 임의의 20000 여개의 숫자들를 분석했다. 결과는 경험 법칙을 지지하는 방향으로 나타났다. (출처 필요)
[3]
많은 숫자의 나열이 벤포드 법칙을 따르지는 않는다. 극도로 임의적이거나, 정규분포나 균일 분포를 따르는 숫자의 나열이 그러하다.
자료가 벤포드 법칙을 따르려면 꼭 들어맞는 구조를 갖추어야 할 것으로 보인다.
어떤 분포를 임의로 골라서, 이 분포들에서 임의로 자료를 모으면, 각 분포들 자체는 그렇지 않더라도, 이렇게 결합된 자료는 벤포드 법칙을 따른다는 것을 1996년 힐이 보였다. (출처 필요)
[4]
단위 불변성은 벤포드 법칙을 함축한다.
단위불변성은, 임의의 환산 인자 \(k\) 를 곱했을 때도 자료에 남아 있는 성질이다.
관찰
고르게 고른 숫자들에 2를 곱한 자료를 생각해 보자.
[1, 1.5) | 2 |
[1.5, 2) | 3 |
[2, 2.5) | 4 |
[2.5, 3) | 5 |
[3, 3.5) | 6 |
[3.5, 4) | 7 |
[4, 4.5) | 8 |
[4.5, 5) | 9 |
[5, 10) | 1 |
위를 보면 알 수 있듯이, 첫 유효숫자의 분포는 고르지 않다. 첫자리에 1 이 올 확률은 나머지 2~9 가 올 확률의 합과 같다.
여기에서, 고르게 고른 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.
분석
정의
- 확률변수 \(X\) 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성을 가진다고 하자.
- 확률변수 \(X\)에 대한 확률밀도함수 \(\phi (x) \) 를, \(P(a \le X \le b) = \int_{a}^{b}\phi(x)dx\) 와 같이 정의하고, 누적밀도함수 \(\Phi(x)\) 를 \(\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt\) 와 같이 정의하자.
그렇다면 확률변수 \(X\) 는 \(P( a < X < x) = P(ka < X < kx)\) 와 같은 성질을 만족한다. 여기서 \(a\) 는 고정된 상수이고, \(x\) 는 변수, \(k\) 는 환산인자이다.
그러므로, 우리는 \(\Phi(kx) - \Phi(ka) = \Phi(x) - \Phi(a)\) 를 얻고, 미분하면 \(k\phi(kx) = \phi(x)\) 를 얻는다.
확률변수 \(X\) 에 대해, 다시 확률변수 \(Y = \log_{b}X\) 를 정의하자. 그리고 \(Y\) 에 대해, \(\psi (y)\) 와 \(\Psi(y)\) 를 위의 확률변수 \(X\) 에서와 같이 정의하자.
그러면 \(\Psi(y) = P(Y \le y) = P(\log_b X \le y) = P(X \le b^y ) = \Phi(b^y) = \Phi(x)\) 이므로, \(\Psi(y) = \Phi(x)\) 이다. 여기에서
\(\Psi(y) = \frac{d}{dy}\Phi(x) = \frac{dx}{dy}\phi(x)\) 를 얻고, 따라서 조금 정리하면 \(\psi( \log_b x) = x\phi(x) \ln{b}\) 를 얻을 수 있다
.\(k\phi(kx) = \phi(x)\) 에서, \(x \phi(x) = \phi(1)\) 이므로, 결국 \(\psi\) 는 상수함수임을 알 수 있다.
즉, 단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다.
여기에서 벤포드 법칙을 이끌어낼 수 있다.
수 \(n\) 의 맨 왼쪽 수를 \(d\) 라 하자. 환산 인자를 \(n\) 에 곱할 때마다 첫 유효 숫자는 법 10 에서 변한다.
로그의 밑 \(b\) 를 \(b = 10\) 으로 삼으면, \(\log_{10}x\) 는 \(0 \le x \le 1\) 에서, 상수 1 의 확률밀도함수를 가질 것이다.
그러므로 단위불변성을 가정하면, \(n = 1, 2, \cdots, 9\) 에 대해
\(\begin{tabular}{ll} $ P(d = n) $&$ = P(n \le x < n+1$ \\ & $= P(\log_{10} n \le \log_{10}x < \log_{10}(n+1)$\\ & $=P(\log_{10}n \le y < \log){10}(n+1)$ \\ & =\log_{10}(n+1) - \log_{10}{n} = \log_{10}(1 + \frac{1}{n}) \end{tabular}\)
를 얻고, 이것은 벤포드 법칙과 같다.
여기에서, 단위불변성을 가지는 자료는 벤포드 법칙을 만족함을 알 수 있다.
[5]
벤포드 법칙을 통해 숫자들의 패턴을 분석하면, 숫자 조작, 사기, 오류, 자료에 내재된 편견 등을 검증할 수 있다.
재미있는 사실
역사
- 수학사연표
- [[수학사연표 (역사)|]]
많이 나오는 질문과 답변
- 네이버 지식인
- http://kin.search.naver.com/search.naver?where=kin_qna&query=
- http://kin.search.naver.com/search.naver?where=kin_qna&query=
- http://kin.search.naver.com/search.naver?where=kin_qna&query=
- http://kin.search.naver.com/search.naver?where=kin_qna&query=
- http://kin.search.naver.com/search.naver?where=kin_qna&query=
관련된 고교수학 또는 대학수학
관련된 다른 주제들
관련도서 및 추천도서
- 도서내검색
- 도서검색
참고할만한 자료
- Note on the frequency of use of the different digits in natural numbers
- [1]Simon Newcomb (1881)
- American Journal of Mathematics 4 (1/4): 39–40. doi:10.2307/2369148
- http://ko.wikipedia.org/wiki/벤포드법칙
- http://en.wikipedia.org/wiki/Benford's_law
- http://www.wolframalpha.com/input/?i=Benford's+law
- 대한수학회 수학 학술 용어집
- 네이버 오늘의과학
관련기사
- 네이버 뉴스 검색 (키워드 수정)
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
블로그
- 구글 블로그 검색 http://blogsearch.google.com/blogsearch?q=
- 네이버 블로그 검색 http://cafeblog.search.naver.com/search.naver?where=post&sm=tab_jum&query=
- 트렌비 블로그 검색 http://www.trenb.com/search.qst?q=
- 스프링노트 http://www.springnote.com/search?stype=all&q=
이미지 검색
- http://commons.wikimedia.org/w/index.php?title=Special%3ASearch&search=
- http://images.google.com/images?q=
- http://www.artchive.com