29  実習

練習 29.1 (Excelを用いたIrisデータセットの分析と可視化) Irisデータセットは,研究者R.A. Fisherが1936年の論文「The use of multiple measurements in taxonomic problems」で使用されたデータセットです。現在では,機械学習やデータ分析の分野で広く使用されており,特に分類問題のベンチマークとして知られています。

Irisデータセットの概要

Irisデータセットは,3種類のアヤメの花(Setosa,Versicolor,Virginica),それぞれ50標本の計150標本から構成されています。各標本は,萼と花弁の長さと幅を測定した4つの特徴量を持っています。

  • 萼の長さ:sepal_length
  • 萼の幅:sepal_width
  • 花弁の長さ:petal_length
  • 花弁の幅:petal_width

このデータセットは以下のようになっています。Idは各標本の識別子で,speciesはアヤメの種類を示しています。各標本の特徴量は以下の通りです。

Id sepal_length sepal_width petal_length petal_width species
1 5.1 3.5 1.4 0.2 Iris-setosa
2 4.9 3.0 1.4 0.2 Iris-setosa
3 4.7 3.2 1.3 0.2 Iris-setosa
150 5.9 3.0 5.1 1.8 Iris-virginica

ダウンロード

実習内容

本実習では,Irisデータセットを用いて,Excelによるデータ分析および可視化を行う.

  1. 三種類のアヤメ(Setosa,Versicolor,Virginica)について,sepal_lengthの平均値,中央値,最大値,最小値を求め,以下のような表を作成してWord文書に挿入せよ.
平均値 中央値 最大値 最小値
Setosa
Versicolor
Virginica
  1. 三種類のアヤメについて,それぞれのsepal_lengthsepal_widthの関係を調査せよ.
    • 品種ごとに散布図を作成する.
    • 相関係数を求め,以下のような表を作成し,word文書に挿入せよ.
相関係数
Setosa
Versicolor
Virginica
  1. 三種類のアヤメのpetal_lengthの分布を比較するため,三品種を同一グラフ上に表示した箱ひげ図を作成せよ.
  2. 実習結果について考察せよ.
    • 感想ではなく,図表や数値を根拠として記述すること.
    • 統計量の違い,相関係数の特徴,箱ひげ図から読み取れる分布の特徴などについて考察すること.

注意事項

  • すべての図および表に図表番号とタイトルを付けること.
  • 本文中で図表を参照する際は,相互参照機能を用いること.
  • Excelで作成したグラフはベクター画像としてWord文書に挿入すること.
  • 数式や参考文献を適切に記載した場合は加点対象とする.
  • 提出前に,report_template.docxの「5. 作成要領」を削除すること.

提出方法

  • レポートのファイル名は「学籍番号_氏名.docx」とすること.
  • Google Classroom に提出すること.