29 実習
練習 29.1 (Excelを用いたIrisデータセットの分析と可視化) Irisデータセットは,研究者R.A. Fisherが1936年の論文「The use of multiple measurements in taxonomic problems」で使用されたデータセットです。現在では,機械学習やデータ分析の分野で広く使用されており,特に分類問題のベンチマークとして知られています。
Irisデータセットの概要
Irisデータセットは,3種類のアヤメの花(Setosa,Versicolor,Virginica),それぞれ50標本の計150標本から構成されています。各標本は,萼と花弁の長さと幅を測定した4つの特徴量を持っています。
- 萼の長さ:
sepal_length - 萼の幅:
sepal_width - 花弁の長さ:
petal_length - 花弁の幅:
petal_width
このデータセットは以下のようになっています。Idは各標本の識別子で,speciesはアヤメの種類を示しています。各標本の特徴量は以下の通りです。
| Id | sepal_length | sepal_width | petal_length | petal_width | species |
|---|---|---|---|---|---|
| 1 | 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
| 2 | 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
| 3 | 4.7 | 3.2 | 1.3 | 0.2 | Iris-setosa |
| … | … | … | … | … | … |
| 150 | 5.9 | 3.0 | 5.1 | 1.8 | Iris-virginica |
ダウンロード
- Excel形式のIrisデータセット:iris.xlsx
- レポートのテンプレート:report_template.docx
実習内容
本実習では,Irisデータセットを用いて,Excelによるデータ分析および可視化を行う.
- 三種類のアヤメ(Setosa,Versicolor,Virginica)について,
sepal_lengthの平均値,中央値,最大値,最小値を求め,以下のような表を作成してWord文書に挿入せよ.
| 平均値 | 中央値 | 最大値 | 最小値 | |
|---|---|---|---|---|
| Setosa | ||||
| Versicolor | ||||
| Virginica |
- 三種類のアヤメについて,それぞれの
sepal_lengthとsepal_widthの関係を調査せよ.- 品種ごとに散布図を作成する.
- 相関係数を求め,以下のような表を作成し,word文書に挿入せよ.
| 相関係数 | |
|---|---|
| Setosa | |
| Versicolor | |
| Virginica |
- 三種類のアヤメの
petal_lengthの分布を比較するため,三品種を同一グラフ上に表示した箱ひげ図を作成せよ. - 実習結果について考察せよ.
- 感想ではなく,図表や数値を根拠として記述すること.
- 統計量の違い,相関係数の特徴,箱ひげ図から読み取れる分布の特徴などについて考察すること.
注意事項
- すべての図および表に図表番号とタイトルを付けること.
- 本文中で図表を参照する際は,相互参照機能を用いること.
- Excelで作成したグラフはベクター画像としてWord文書に挿入すること.
- 数式や参考文献を適切に記載した場合は加点対象とする.
- 提出前に,report_template.docxの「5. 作成要領」を削除すること.
提出方法
- レポートのファイル名は「学籍番号_氏名.docx」とすること.
- Google Classroom に提出すること.