2016/09/13
2020/05/04
Rでデータ集計に便利なコマンド集と列ごと集計の関数例
R言語を使って、データ集計するときに便利なコマンド、関数をまとめてみました。
関数・コマンド | 用法 |
---|---|
ave() | 平均。引数にベクトルをとって、その平均を返す。 |
median() | 中央値。引数にベクトルをとってその値の中央値を返す。 |
sd() | 不偏標準偏差。引数ベクトルの普遍標準偏差を返す。 |
ans = t.test(value) conf = ans$conf.int | confにvalueの95%信頼区間を格納。 |
min() | 最小値。引数ベクトルの最小値を返す。 |
max() | 最大値。引数ベクトルの最大値を返す。 |
quantile(value,0.25) | %点を求める。この場合valueの25%点を返す。 |
これを元に、データの列ごとに集計する集計用の関数を作成しました。ご自分のデータ集計の参考にしていただけたら幸いです。
この関数は集計用データdatと、結果出力ファイル名を引数に入れると、列ごとに集計を行なって、集計結果のファイルを生成するというようなものです。
出力は、集計データの列名、平均、中央値、不偏標準偏差、95%信頼区間、最小値、25%点、75%点、最大値、データ数、の順番で出ます。
syuukei <- function(dat,filename)
{
for(i in 1:ncol(dat))
{
data = na.omit(dat[,i])
name = colnames(dat)[i]
ave = ave(data)[1]
med = median(data)
sd = sd(data)
ans = t.test(data)
conf = ans$conf.int
min = min(data)
max = max(data)
q25 = quantile(data,0.25)
q75 = quantile(data,0.75)
N = length(data)
result = cbind(name,ave,med,sd,conf[1],conf[2],min,q25,q75,max,N)
colnames(result)[5] = “95%信頼区間下限”
colnames(result)[6] = “95%信頼区間上限”
if(i == 1)
{
write.table(matrix(c(colnames(result)),nrow=1),filename,append=T,quote=F,sep=“,”,row.names=F,col.names=F,fileEncoding=“CP932”)
}
write.table(result,filename,append=T,quote=F,sep=“,”,row.names=F,col.names=F,fileEncoding=“CP932”)
}
}
例えば、dfにデータフレーム型で格納されたデータについて、2列〜12列まで集計したい場合、以下のようにプログラムを記述します。
dat = df[,c(2:12)]
syuukei(dat,filename)
※R言語入門のトップページはこちら
最新投稿記事
-
AIプロジェクトの企画と失敗しない進め方を解説 2021年1月19日
-
AVILEN人材育成コース受講体験談:山田裕之さん「E資格の”その先”を目指して」 2021年1月8日
-
AI導入とは?RPAとの関係、プロセス、事例、メリット、費用を詳細に解説 2020年12月7日
-
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
-
AI人材を育成できる研修プログラムを一挙紹介! 2020年10月20日
-
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
-
JDLAとは?G検定、E資格の認定プログラム、合格者の会など紹介! 2020年10月14日
-
G検定(2020#3)受験申し込み開始、11月7日(土)実施-JDLA 2020年10月1日
-
【独占】コロナ禍で人材登録急増、アノテーション単月売上高は4倍超-パソナJOB HUB 2020年10月1日
-
E資格を転職に活用!評判とデータを徹底調査! 2020年9月29日
週間ランキング
【2021年版】コスパ重視のG検定対策!おすすめの本・講座・教材を一挙紹介! 2020年6月6日
G検定に短期間・独学で合格した勉強法を解説! 2020年8月3日
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
G検定は難しい?難易度・合格ライン・問題を徹底解説! 2020年6月19日
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
G検定に落ちた人、合格した人。勉強法の違いはどこにある? 2020年6月25日
最弱オセロを初めて攻略した天才オセロ高校生。負け方を解説! 2020年7月31日
【2021年版】E資格とは?大注目のディープラーニングの資格を解説! 2020年9月29日
E資格の難易度を、合格率と問題から徹底分析! 2020年8月11日
MLOpsとは|定義、メリット、課題、ツール、ワークフローを分かりやすく解説 2020年9月18日
