"벤포드의 법칙"의 두 판 사이의 차이
101번째 줄: | 101번째 줄: | ||
− | {| | + | {| style="border-collapse: collapse; width: 108pt;" width="144" |
|- | |- | ||
| [1, 1.5) | | [1, 1.5) | ||
146번째 줄: | 146번째 줄: | ||
* 확률변수 <math>X</math> 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성(Scale invariance)을 가진다고 하자. | * 확률변수 <math>X</math> 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성(Scale invariance)을 가진다고 하자. | ||
+ | |||
+ | |||
+ | |||
+ | 정리 | ||
+ | |||
+ | 단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다. | ||
+ | |||
* 확률변수 <math>X</math>에 대한 확률밀도함수 <math>\phi (x) </math> 를, <math>P(a \le X \le b) = \int_{a}^{b}\phi(x)dx</math> 와 같이 정의하고, 누적밀도함수 <math>\Phi(x)</math> 를 <math>\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt</math> 와 같이 정의하자.<br> | * 확률변수 <math>X</math>에 대한 확률밀도함수 <math>\phi (x) </math> 를, <math>P(a \le X \le b) = \int_{a}^{b}\phi(x)dx</math> 와 같이 정의하고, 누적밀도함수 <math>\Phi(x)</math> 를 <math>\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt</math> 와 같이 정의하자.<br> | ||
237번째 줄: | 244번째 줄: | ||
** http://www.amazon.com/s/ref=nb_ss_gw?url=search-alias%3Dstripbooks&field-keywords= | ** http://www.amazon.com/s/ref=nb_ss_gw?url=search-alias%3Dstripbooks&field-keywords= | ||
** http://book.daum.net/search/mainSearch.do?query= | ** http://book.daum.net/search/mainSearch.do?query= | ||
− | * <br> | + | * [http://www.aladdin.co.kr/shop/wproduct.aspx?ISBN=896139018X 오일러 상수, 감마]<br> <br> |
+ | 한 기업의 회계관이 디지털분석법을 사용하여 의료부서의 책임자가 제출한 청구서를 점검한 결과 뭔가 이상한 점을 발견했다. 의료 관련 지출서의 첫 두 유효숫자가 벤포드법칙을 따르는지 조사했더니 65로 시작되는 숫자들이 특별히 높은 값을 보였다. 그래서 6500달러에서 6599달러 사이의 수표들에 대한 회계감사를 실시한 결과, 책임자가 처리한 심장수술 청구서가 허위였으며 그 돈은 책임자가 착복한 것으로 밝혀졌다. <br> | ||
+ | |||
+ | - 14장 로그가 넘치는 세상, 244쪽 | ||
+ | <br> | ||
2009년 7월 11일 (토) 12:01 판
간단한 소개
- 수로 구성된 많은 데이터에서, 첫째 자리에 오는 숫자가 고르게 분포되어 있지 않은 현상
- 단위불변성(scale invariance)이 핵심적인 성질
[1]
미국의 수학자이자 천문학자인 사이먼 뉴컴(Simon Newcomb)은, 다른 사람과 함께 쓰던 로그책에서 책의 앞부분이 훨씬 낡아 있는 것을 눈치채었다.
로그표는 수가 커지는 순서대로 배열되어 있다. 그러므로 위 결과는, 실제 계산에서는 맨 앞자리수가 큰 숫자보다, 맨 앞자리수가 작은 수가 더 많이 쓰인다는 사실을 말해 준다.
통상의 계산에서, 계산량이 많아지면 모든 크기의 수가 고르게 사용될텐데, 왜 이 수들의 최대 유효숫자는 이렇지 않을까?
Newcomb 은 다음과 같은 경험법칙을 얻는다.
- 첫 유효숫자 \(d\) 로 시작하는 수의 비율은, (10진법에서) 1/9 가 아니라 \(\log(1 + 1/d)\) 와 같이 나타난다
이 사실을 그는 American Journal of Mathematics 에 간략하게 실었으나, 수학적 분석이 없었으므로 별 주목을 받지 못했음. (1881)
\(d\) | 직관적 확률 | 경험적 확률 |
---|---|---|
\(1\) | \(0.111\cdots\) | \(0.30103\) |
\(2\) | \(0.111\cdots\) | \(0.17609\) |
\(3\) | \(0.111\cdots\) | \(0.12494\) |
\(4\) | \(0.111\cdots\) | \(0.09691\) |
\(5\) | \(0.111\cdots\) | \(0.07918\) |
\(6\) | \(0.111\cdots\) | \(0.06695\) |
\(7\) | \(0.111\cdots\) | \(0.05799\) |
\(8\) | \(0.111\cdots\) | \(0.05115\) |
\(9\) | \(0.111\cdots\) | \(0.04578\) |
(출처 필요)
[2]
1938 년 미국 GE 의 물리학자 프랭크 벤포드(Frank Benford)가, 위의 뉴컴(Newcomb이 발견한 것과 정확히 같은 양상 - 즉 곧 첫 유효숫자의 분포는 \(\log(1 + 1/d)\) 와 같이 나타난다 - 을 재발견했다.
벤포드는 경험적 검증을 위해, 강의 넓이, 사망률, 야구 통계 등 전혀 무관한 임의의 20000 여개의 숫자들를 분석했다. 결과는 경험 법칙을 지지하는 방향으로 나타났다. (출처 필요)
[3]
많은 숫자의 나열이 벤포드 법칙을 따르지는 않는다. 극도로 임의적이거나, 정규분포나 균일 분포를 따르는 숫자의 나열이 그러하다.
자료가 벤포드 법칙을 따르려면 꼭 들어맞는 구조를 갖추어야 할 것으로 보인다.
어떤 분포를 임의로 골라서, 이 분포들에서 임의로 자료를 모으면, 각 분포들 자체는 그렇지 않더라도, 이렇게 결합된 자료는 벤포드 법칙을 따른다는 것을 1996년 힐이 보였다. (출처 필요)
[4]
단위 불변성은 벤포드 법칙을 함축한다.
단위불변성은, 임의의 환산 인자 \(k\) 를 곱했을 때도 자료에 남아 있는 성질이다.
관찰
고르게 고른 숫자들에 2를 곱한 자료를 생각해 보자.
[1, 1.5) | 2 |
[1.5, 2) | 3 |
[2, 2.5) | 4 |
[2.5, 3) | 5 |
[3, 3.5) | 6 |
[3.5, 4) | 7 |
[4, 4.5) | 8 |
[4.5, 5) | 9 |
[5, 10) | 1 |
위를 보면 알 수 있듯이, 첫 유효숫자의 분포는 고르지 않다. 첫자리에 1 이 올 확률은 나머지 2~9 가 올 확률의 합과 같다.
여기에서, 고르게 고른 숫자들의 분포는 단위불변성을 갖지 않는다는 사실을 알 수 있다.
단위불변성(scale invariance)
- 측정의 단위가 변해도, 분포가 변하지 않는 것을 일컫는다.
정의
- 확률변수 \(X\) 에 어떤 환산값을 곱해서 단위를 바꾸어도, 어느 구간에 있을 확률이 변하지 않는다면 단위불변성(Scale invariance)을 가진다고 하자.
정리
단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다.
- 확률변수 \(X\)에 대한 확률밀도함수 \(\phi (x) \) 를, \(P(a \le X \le b) = \int_{a}^{b}\phi(x)dx\) 와 같이 정의하고, 누적밀도함수 \(\Phi(x)\) 를 \(\Phi(x) = P(X \le x) = \int^{x}\phi(t)dt\) 와 같이 정의하자.
그렇다면 확률변수 \(X\) 는 \(P( a < X < x) = P(ka < X < kx)\) 와 같은 성질을 만족한다. 여기서 \(a\) 는 고정된 상수이고, \(x\) 는 변수, \(k\) 는 환산인자이다.
그러므로, 우리는 \(\Phi(kx) - \Phi(ka) = \Phi(x) - \Phi(a)\) 를 얻고, 미분하면 \(k\phi(kx) = \phi(x)\) 를 얻는다.
확률변수 \(X\) 에 대해, 다시 확률변수 \(Y = \log_{b}X\) 를 정의하자. 그리고 \(Y\) 에 대해, \(\psi (y)\) 와 \(\Psi(y)\) 를 위의 확률변수 \(X\) 에서와 같이 정의하자.
그러면 \(\Psi(y) = P(Y \le y) = P(\log_b X \le y) = P(X \le b^y ) = \Phi(b^y) = \Phi(x)\) 이므로, \(\Psi(y) = \Phi(x)\) 이다. 여기에서
\(\psi(y) = \frac{d}{dy}\Phi(x) = \frac{dx}{dy}\phi(x)\) 를 얻고, 따라서 조금 정리하면 \(\psi( \log_b x) = x\phi(x) \ln{b}\) 를 얻을 수 있다
\(k\phi(kx) = \phi(x)\) 에서, \(x \phi(x) = \phi(1)\) 이므로, 결국 \(\psi\) 는 상수함수임을 알 수 있다.
즉, 단위불변성을 가진 변수의 로그는 상수의 확률밀도함수를 가진다.
여기에서 벤포드 법칙을 이끌어낼 수 있다.
수 \(n\) 의 맨 왼쪽 수를 \(d\) 라 하자. 환산 인자를 \(n\) 에 곱할 때마다 첫 유효 숫자는 법 10 에서 변한다.
로그의 밑 \(b\) 를 \(b = 10\) 으로 삼으면, \(\log_{10}x\) 는 \(0 \le x \le 1\) 에서, 상수 1 의 확률밀도함수를 가질 것이다.
그러므로 단위불변성을 가정하면, \(n = 1, 2, \cdots, 9\) 에 대해
\(\begin{tabular}{ll} $ P(d = n) $&$ = P(n \le x < n+1 )$ \\ & $= P(\log_{10} n \le \log_{10}x < \log_{10}(n+1)\ )$\\ & $=P(\log_{10}n \le y < \log_{10}(n+1) )$ \\ & =\log_{10}(n+1) - \log_{10}{n} = \log_{10}(1 + \frac{1}{n}) \end{tabular}\)
를 얻고, 이것은 벤포드 법칙과 같다.
여기에서, 단위불변성을 가지는 자료는 벤포드 법칙을 만족함을 알 수 있다.
재미있는 사실
동일한 접근 방식으로 둘째 유효숫자에 대한 분석을 할 수도 있다. 둘째 유효숫자에서 가장 많이 나타나는 수는 0 인데, 빈도는 11.97% 정도 된다.
피보나치 수열도 벤포드 법칙을 따르는 것으로 보인다.
알파 붕괴의 반감기는 이론과 관측에서 벤포드 법칙을 따른다는 것이 확인되었다.
여러 회계 자료들도 벤포드 법칙을 잘 따른다. 사실 이것을 이용하여, 벤포드 법칙을 통해 숫자들의 패턴을 분석하면, 숫자 조작, 사기, 오류, 자료에 내재된 편견 등을 검증할 수도 있다.
- 미드 numb3rs의 두번째 시즌 15번째 에피소드에 등장
역사
많이 나오는 질문과 답변
- 네이버 지식인
관련된 고교수학 또는 대학수학
관련된 다른 주제들
관련도서 및 추천도서
- 도서내검색
- 도서검색
- 오일러 상수, 감마
한 기업의 회계관이 디지털분석법을 사용하여 의료부서의 책임자가 제출한 청구서를 점검한 결과 뭔가 이상한 점을 발견했다. 의료 관련 지출서의 첫 두 유효숫자가 벤포드법칙을 따르는지 조사했더니 65로 시작되는 숫자들이 특별히 높은 값을 보였다. 그래서 6500달러에서 6599달러 사이의 수표들에 대한 회계감사를 실시한 결과, 책임자가 처리한 심장수술 청구서가 허위였으며 그 돈은 책임자가 착복한 것으로 밝혀졌다.
- 14장 로그가 넘치는 세상, 244쪽
참고할만한 자료
- Note on the frequency of use of the different digits in natural numbers
- [1]Simon Newcomb (1881)
- American Journal of Mathematics 4 (1/4): 39–40
- A Statistical Derivation of the Significant-Digit Law
- Theodore P. Hill (1995)
- Statistical Science, Vol. 10, No. 4 (Nov., 1995), pp. 354-363
- http://ko.wikipedia.org/wiki/벤포드법칙
- http://en.wikipedia.org/wiki/Benford's_law
- http://www.wolframalpha.com/input/?i=Benford's+law
관련기사
- 과학자들의 진실게임 - 그 법칙은 내꺼야!
- 과학에서 최초의 발견자와 크레딧 논쟁 사례
- 한겨레, 2008-10-10
- 과학에서 최초의 발견자와 크레딧 논쟁 사례
- 확률법칙으로 탈세 적발한다
- 네이버 뉴스 검색 (키워드 수정)
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=벤포드법칙
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=확률법칙으로탈세적발한다
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
- http://news.search.naver.com/search.naver?where=news&x=0&y=0&sm=tab_hty&query=
블로그
- Benford’s law, Zipf’s law, and the Pareto distribution
- 터렌스 타오, 2009-7-3
- 구글 블로그 검색 http://blogsearch.google.com/blogsearch?q=벤포드법칙
- 네이버 블로그 검색 http://cafeblog.search.naver.com/search.naver?where=post&sm=tab_jum&query=
- 트렌비 블로그 검색 http://www.trenb.com/search.qst?q=
- 스프링노트 http://www.springnote.com/search?stype=all&q=