「分位点と箱形図」の編集履歴(バックアップ)一覧はこちら

分位点と箱形図」(2006/06/02 (金) 13:19:31) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

**パーセンタイル パーセンタイルとは、計測値の分布(ばらつき)を小さい方から並べてパーセントで見た数字。データの分布具合(ばらつき)を見るのに役立つ。 Rにはパーセンタイルくらいありそうな気がするのに、探し方が悪いのか見つからなかった。 よってパーセンタイルを計算する関数は自作である(後で罠にはまったことに気付く)。 percentile<-function(x,y){ sort_x<-x[order(x)] i<-round(length(sort_x)*y/100) i[i<1]<-1 ##iが1未満のときは1にする return(sort_x[i])} 使い方 percentile(データのベクトル,何%か(0~100))とする 使用例 percentile(seiseki,10) [1] 43 seisekiデータのパーセンタイル0~100%までを10%きざみで表示してみる。 for(i in 0:10){print(percentile(seiseki,i*10))} [1] 28 [1] 43 [1] 52 [1] 62 [1] 70 [1] 73 [1] 80 [1] 85 [1] 87 [1] 93 [1] 100 さてRにはクォンタイルというのはある。 quantile(seiseki) 0% 25% 50% 75% 100% 28.0 61.5 73.0 85.5 100.0 お手製パーセンタイル関数をつかって、0%、25%、50%、75%、100%を指定してやれば、同じになるはずである。 y<-c(0,25,50,75,100) ベクトルyに区切りのパーセントをまとめて代入し、同様に計算する percentile(seiseki,y) [1] 28 61 73 85 100 しまった。お手製パーセンタイル関数は、ある数と数の間に小さいほうから25%が来る場合でも 単に25%あたりで、近いデータを拾っているだけだった。 本当は離散データの間に当該パーセントが来た場合は、たとえば61と62の間をとって61.5としなければならないのだ。 ---- **クォンタイル(四分位点) データを小さい順に並べて、25%ずつデータを区切ると、0~25%,25~50%,50~75%、75~100%と、4つの部分に区切ることができる。この(4つに分ける)区切りを四分位点という。それぞれ下からそれぞれ、第1四分位点Q1(25%の点)、第2四分位点Q2(50%の点)、第3四分位点Q3(75%の点)とよぶ。 Rでは先に述べたとおり、quantile()で表示できる。 特に第1四分位点Q1と第3四分位点Q3の差を「四分位範囲」とよび、IR(=Q3-Q1)と書いたりする。これは、ばたつき具合を表す指標にも使われる。 **箱型図 クォンタイル(四分位点)を使って、ばらつき具合を視覚的に表示したものに、箱型図がある。 Rではboxplot()で、描くことができる。 ためしに成績データを使って箱型図を描いてみよう。 boxplot(seiseki) #ref(boxplot.gif) 真ん中の箱(ボックス)が、第1四分位点(Q1)と第3四分位点(Q3)の間、すなわち「四分位範囲」(IR)を表している。またボックスの中に引かれた線は、第2四分位点(Q2)、すなわち中間値を示している。 さてIRの大きさを使って、IRの1.5倍のところにボックスの上と下に「ヒゲ」を伸ばす。この「ヒゲ」に含まれる値を「内側値」という。 ヒゲの外側に、さらにIRの1.5倍のところに線を引く。「ヒゲ」の端からこの線のところまでに含まれる値を「外側値」と呼ぶ。 「外側値」よりも中央値から離れた値は、「極外値」と呼び、異常値でないかと疑う。
#contents **パーセンタイル パーセンタイルとは、計測値の分布(ばらつき)を小さい方から並べてパーセントで見た数字。データの分布具合(ばらつき)を見るのに役立つ。 Rにはパーセンタイルくらいありそうな気がするのに、探し方が悪いのか見つからなかった。 よってパーセンタイルを計算する関数は自作である(後で罠にはまったことに気付く)。 percentile<-function(x,y){ sort_x<-x[order(x)] i<-round(length(sort_x)*y/100) i[i<1]<-1 ##iが1未満のときは1にする return(sort_x[i])} 使い方 percentile(データのベクトル,何%か(0~100))とする 使用例 percentile(seiseki,10) [1] 43 seisekiデータのパーセンタイル0~100%までを10%きざみで表示してみる。 for(i in 0:10){print(percentile(seiseki,i*10))} [1] 28 [1] 43 [1] 52 [1] 62 [1] 70 [1] 73 [1] 80 [1] 85 [1] 87 [1] 93 [1] 100 さてRにはクォンタイルというのはある。 quantile(seiseki) 0% 25% 50% 75% 100% 28.0 61.5 73.0 85.5 100.0 お手製パーセンタイル関数をつかって、0%、25%、50%、75%、100%を指定してやれば、同じになるはずである。 y<-c(0,25,50,75,100) ベクトルyに区切りのパーセントをまとめて代入し、同様に計算する percentile(seiseki,y) [1] 28 61 73 85 100 しまった。お手製パーセンタイル関数は、ある数と数の間に小さいほうから25%が来る場合でも 単に25%あたりで、近いデータを拾っているだけだった。 本当は離散データの間に当該パーセントが来た場合は、たとえば61と62の間をとって61.5としなければならないのだ。 ---- **クォンタイル(四分位点) データを小さい順に並べて、25%ずつデータを区切ると、0~25%,25~50%,50~75%、75~100%と、4つの部分に区切ることができる。この(4つに分ける)区切りを四分位点という。それぞれ下からそれぞれ、第1四分位点Q1(25%の点)、第2四分位点Q2(50%の点)、第3四分位点Q3(75%の点)とよぶ。 Rでは先に述べたとおり、quantile()で表示できる。 特に第1四分位点Q1と第3四分位点Q3の差を「四分位範囲」とよび、IR(=Q3-Q1)と書いたりする。これは、ばたつき具合を表す指標にも使われる。 **箱型図 クォンタイル(四分位点)を使って、ばらつき具合を視覚的に表示したものに、箱型図がある。 Rではboxplot()で、描くことができる。 ためしに成績データを使って箱型図を描いてみよう。 boxplot(seiseki) #ref(boxplot.gif) 真ん中の箱(ボックス)が、第1四分位点(Q1)と第3四分位点(Q3)の間、すなわち「四分位範囲」(IR)を表している。またボックスの中に引かれた線は、第2四分位点(Q2)、すなわち中間値を示している。 さてIRの大きさを使って、IRの1.5倍のところにボックスの上と下に「ヒゲ」を伸ばす。この「ヒゲ」に含まれる値を「内側値」という。 ヒゲの外側に、さらにIRの1.5倍のところに線を引く。「ヒゲ」の端からこの線のところまでに含まれる値を「外側値」と呼ぶ。 「外側値」よりも中央値から離れた値は、「極外値」と呼び、異常値でないかと疑う。 →[[國友直人(1992)『経済学入門シリーズ 現代統計学(上・下)』(日経文庫)]]へもどる

表示オプション

横に並べて表示:
変化行の前後のみ表示:
目安箱バナー