« 2007年08月 | メイン | 2007年10月 »

2007年09月05日

誰にでもわかる?確率統計学 「標準偏差」

突然ですが標準偏差って知ってますか?

理系の大学を卒業した人なら必ず1度は聞いたことがある言葉でしょう。

文系の人でも有名なので耳にしたことぐらいはあるかもしれません。

私ももちろん聞いたことがあってなんかどこかで計算したこともあったような気もします。

しかし実際この標準偏差がどのようなものなのかはよく理解していなかった。

私の理解では標準偏差とは

標準値からのずれの度合いが標準偏差

と考えていた。

標準値とはたとえば日本人の男性の身長を考えると、
平均で170cmだったとすると

標準値=170(=全数の平均)

そして標準偏差は

ここからどれぐらいずれているかで

標準偏差σ(シグマと読む)=5

なら170±5=165~175

というようになる。
σが小さければ小さいほどその範囲は狭くなり、ずれは小さいといえる。

実際に平均170からのずれが少ないほうがσは小さい値になる。

だから私の理解も別に間違いではない。

しかし標準偏差の本当の意味は奥がかなり深かった。

投稿者 nabe : 19:28 | コメント (0)

2007年09月04日

『最近の理系卒は・・・』

標準偏差 その2

『最近の理系卒は・・・』

なぜこのようなことを考えることになったかというと、
今やっている仕事でサンプルのばらつきがどのように分布しているのかを調べるため。
200サンプルぐらいがあり、その測定結果のばらつき具合から測定方法の是非を検討する。

といってもこれはもともと私の仕事ではない。

私の隣のリクルートスタッフの派遣の人がやっている実験、
リクルートスタッフは新卒をそのまま雇って派遣するということをやっていて彼もその1人。

国立大学の工学部を卒業した人だけど学部卒、
私も含め10人いる研究員の他の全てが院卒ということを考えるとちょっと心もとない。

それでも私なら学部のときでもこの程度は自分でなんとでもできたとおもうのだけど、
なかなか今の学生はレベルの下がり具合がすごいのでねー、
国立大学の工学部卒でもレベルが・・・

何がだめって考える力がどうにもない。

上司に標準偏差を取ってみろ、
と言われたはいいけど標準偏差ってなに?という状態。
もちろん標準偏差は取り方は知っていてエクセルの関数で簡単に出る。

でもそれがなにを意味しているのかがわからない。
そこまでは私もまあ似たようなものなんだけど、
じゃあそのあとどうすればいいのかがさっぱりわからないのが問題。

私はインターネットで調べていったんだけど、彼も調べてはいたけど一行に進まない。

教科書があって授業のように教えてもらえる環境なら、
マニュアル型の今の若い人は普通にできるけど、
なにもなくて自分で全てを調べて理解するということはどうも苦手な人が多い。

研究開発では未知なことが多いのでそれこそが必要な力、
理系でその力がないのは相当問題です。

しかも今は理系離れが進んでいて理系を選択する学生が減っている。
でも理系の学部の数とかはまったく減っていないので受験競争もかなり甘くなる。

1992年のピークには40万人の理系の学生が入学していたけど、
2006年は20万人ぐらい、半減では実力も半減かなー。

ましてや塾通いがあたりまえになってとにかく問題が解けるようになればいい、
という教え方をするので自分で新しい解法をみつけるとかいうことをまったくしない。

理系の能力が落ちまくりですわ、工業立国の日本でこれでは・・・
やっぱり日本はもうだめね。

しかし実は私にとってはいい事でもある、
というのも派遣なので実力のある若いのがいっぱい出てこられると、
年を取った私なんて若いのに負けてしまう。
怖いのが下から上がってこないのは派遣の私には非常に良い環境です。

正社員には地獄の環境だろうけどね、
使えない新人ばかりやってきても何の役にも立たないからね。


話がそれましたが、
とにかくその新卒君があまりにもダメだったので、
私も興味があったし調べてみることにした。

投稿者 nabe : 19:31 | コメント (0)

2007年09月03日

『すごいぞガウス!』

標準偏差 その3

『すごいぞガウス!』


標準偏差とは250年ぐらい昔にガウスという天文、数学、物理学者が考えたものらしい。
レオナルドダビンチやピタゴラスなどとならぶ超有名な万能科学者のようだ。


標準偏差は正規分布というものに従うことからきている。
正規分布とは左右対称の釣鐘型の分布のこと。

テストの点でたとえると範囲は0~100点

平均が50点だったとすると、1000人ぐらい受ければ
X軸に点数、Y軸にその点の人数というようにグラフを書くと50点をピークとする左右対称のグラフとなる。

このときのσが表す意味は
いろいろ理由はあるけど要約すると

50±σ=(50-σ)~(50+σ)

の範囲にデータがある確率は68.27%となる。
これをガウスさんが見つけたらしくて、正規分布のことをガウス分布と呼ばれることもある。
250年前にこんなものを見つけてしまうなんてさすが天才は違うねー。

ちなみに標準偏差は次のようにして求められます。






ということでもしσが10なら

50±10=40~60点の間に68.27%の人が含まれていることになります。

σ=1なら 50±1=49~51点の間に68.27%の人が含まれているのでばらつきは極めて少ないということになる。


さてではこの 平均±σ=68.27% というのはどこから出てきたのでしょうか?


エクセルには統計で標準偏差をもとめたりする関数とかがあります。

その中で関数

NORMDIST(X 、平均u 、標準偏差σ 、TRUE)

というものを使って考えることができます。

これは(平均 、標準偏差)=(u 、σ)であるときにX以下である確率を値として返してきます。

先の例だと(u 、σ)=(50 、10) Xは適当な値でいいのですが40とすると、

このときでてくる値は 確率 P= 0.1587 = 15.87%

となり、40点以下の人は全体の15.87%(存在確率)いることになります。

この関数が実際に何をやっているかというと、
グラフのX以下の値から-∞までの範囲のデータを積分しているのです。

ちなみに-∞ ~ ∞までを積分すると1という値が返ってきます。
まあ0~100点までしか範囲がないのでこの範囲にいる確率は100%になるのであたりまえの話。

ここでまた正規分布が登場!

正規分布は先に書いたように左右対称形であるものをいうので、
当然反対側の点も積分すれば同じになる。

この場合平均50点に対して40点以下の人を求めたので、
平均点-10点=平均+10点
となるので60点以上の人は同じく全体の15.87%になります。

先に書いたように-∞ ~ ∞を計算すると1になる。(=0~100点の範囲内の得点の人が存在する確率、もちろん100%)

(40点以下の人の確率)と(60点以下の人の確率)を足すと解は、
P≦40 and 60≦P
となり、
これは40点以下と60点以上の確率をあらわす。

P=0.1587+0.1587=0.3174=31.74%
となる。

0~100点の範囲では100%なので、そこから40点以下と60点以上の人の確率を除くとそれは・・・

40点以上60点以下の人の確率になるのです!
40≦P≦60

P=1-0.3174=0.6826=68.26%


すなわち平均u=50において標準偏差σ=10のときに、Xに標準偏差と同じ10をいれると(X=σ)・・・


かならず68.26%となるのです!

よって標準偏差σはu±σの範囲においての存在確率68.26%となる。


すごいぞガウス!

投稿者 nabe : 19:34 | コメント (0)

2007年09月02日

『使いこなすとすごい標準偏差』

標準偏差 その4

『使いこなすとすごい標準偏差』


で、これがなにか?

といわれるとこれ自体にたいした意味はない。
なにせたかだか存在確率が68.26%の範囲がわかったところで役に立つことはほとんどないだろう。

そこでさらに考えていくとすごく役に立つことがわかる。

存在確率Pをもとめてくれる関数NORMDIST()をつかえば各種条件での確率Pが求まる。

平均u=50 、標準偏差σ=10としてXの値をいろいろ変えてみる。

もし30点以下の人の割合を知りたければX=30を入れると

X=30 P(P≦30)=2.275%となる

X=40 P(P≦40)=15.87%であるので、

40点以下の確率から30点以下の人の確率を引けば、
それは40点以下 かつ 30点以上になる。

(40点以下の確率)=(30点以下の確率)+(30点以上40点以下の確率)

(30点以上40点以下の確率)=(40点以下の確率)-(30点以下の確率)

P(30≦P≦40)= P(P≦40)- P(P≦30)=0.1587-0.02275=0.1360=13.6%

このようにあらゆる範囲の存在確率を求められる。

20点以上80点以下ならX=20とX=80の計算結果からもとめられる。

平均以上の人の確率とか、平均+20点までの人の確率などお好みで求められるので、
分布がどのようになっているかなどをもとめることができる。


これでも便利だけど、場合よっては確率70%にはいる範囲Xはどうなの?
といように逆に求めたいこともあるでしょう。


そのときも逆算用の関数がエクセルにあります
正規累積分布の逆数を返す関数

NORMINV(確率P,平均u,標準偏差σ)

u=50 、σ=10のときP=0.2(20%)
を入れると

X=41.58

という値が返ってくる。
この返ってきた値の意味は

41.58点以下の人が20%いるということになります。

先の正規分布のグラフの法則により、

平均u-41.58=50-41.58=8.42

平均u±8.42=0.2×2=0.4=40%

P≦41.58 、 58.42≦P の確率40%

逆に41.58≦P≦58.42の確率は100%-40%=60%となる。

-X≦P≦Xで求めたい場合は(ほとんどがこの場合でしょう)
求めたい確率が60%ならば

100%-60%=40%
40%はP≦-XとX≦Pの確率の和なので片方の確率は40/2=20%となる。

よって求めたい確率Pならば代入すべきP’の値は

P’=(1-P)/2

でももとめられる。

確率70%にはいる±XはP’=(1-0.7)/2=0.15でX=39.64となる。

範囲は50-39.64=10.36 50+10.36=60.36

39.64≦P≦60.36の範囲に全体の70%が含まれていることになる。


使いこなすとなかなかすごいぞ標準偏差。

投稿者 nabe : 19:50 | コメント (0)

2007年09月01日

『標準偏差の本当の使い方』

標準偏差 その5

『標準偏差の本当の使い方』


実際のところここまで使いこなす必要があるかというとそうでもない、
なんとなく興味があってついつい調べ始めてしまったら止まらなくて標準偏差を極めてみただけ。

一般的な使い方は標準偏差σ、平均uでは

u-σ≦P≦u+σ

の範囲では全体の68.27%が含まれているというものから、
この範囲を±2σにすると

u-2σ≦P≦u+2σ

このときの値もエクセルの関数に代入すると求められて、
そのときの解は

P=95.45%

平均50、σ=10なら2σ=20

50±20 30≦P≦70 この範囲に入る確率が95.45%となる。

ここまでいけば全数のほとんどが範囲内にはいっているということになる。
さらにさらに3σではどうなるのだろうか?

答えは

20≦P≦80 P=99.73%

となり、0.3%以外すべてこの範囲に入っていることになる。

これらを図に表すとこのようになる。








さらにさらにさらに4σでは?

10≦P≦90 P=99.9937%となる

全体の0.006%以外はすべてこの範囲になる。

さらにさらにさらにさらに・・・

ってどこまでいくねん!

とそろそろ付き合いきれなくなると思われるので、
ここでの意味を考えると、

工業製品では4σという規格値がある。
私もまったく知らなかったんだけど、ふとしたときに4σという規格がよく使われていることを知る。

この4σというのがまさにこの標準偏差の値なのです。

もし10cmの定規を作るのに誤差±0.1cmまでが規格値で製品として合格になるとする。

このときの標準偏差が0.1なら

1σ=0.1 9.9≦P≦10.1 68.27%
2σ=0.2 9.8≦P≦10.2 95.45%
3σ=0.3 9.7≦P≦10.3 99.73%
4σ=0.4 9.6≦P≦10.4 99.9937%

よって規格値にはいるレベルは1σなので68.27%しか製品として使えないことになる。

もし4σレベルで合格の製品を作りたいなら誤差0.1/4=0.25

σ=0.25のときに4σ=0.1となり、
9.9≦P≦10.1 99.9937%
というレベルの製品合格率をだすことができる。

求めるレベルによって必要な標準偏差の値を決めることが製品規格における規格値となるのです。


そこで私がこの4σを知ることになったきっかけが6σという言葉から、
普通の会社は4σを基準にしているけどGE社(ゼネラルエレクトリック、世界最大の株式時価総額の会社)は6σを基準にすることにしたという話。

これは製品不良品率の話で普通の会社は4σで1000万個の製品を作ると
4σでは99.9937%の確率で不良品が発生することになり

10000000×(1-0.999937)=630個

この数の不良品が発生する、
このなかで経営に深刻な影響を与える(全品回収など)確率が1%なら6.3個も存在することになる。
0.1%でも0.63個になり、1億個つくれば6.3個になり、作った分だけそのときの被害も極大になる。


そこで6σにするとどうなるか?

確率P=99.9999998

100万個つくたったとすると

1000000×(1-0.999999998)=0.02個

深刻な影響の確率が1%でも0.0002個しかなく、0.1%では0.00002個になる。
確率的には100億個作るとやっと2個の深刻な不良品が発生することになる。

さすがにこの確率ならもう深刻な不良品はないとみてもいい。


投稿者 nabe : 19:59 | コメント (0)