Skip to article frontmatterSkip to article content

実習

法政大学

Excelを用いたIrisデータセットの分析と可視化

Irisデータセットは,研究者R.A. Fisherが1936年の論文「The use of multiple measurements in taxonomic problems」で使用されたデータセットです。現在では,機械学習やデータ分析の分野で広く使用されており,特に分類問題のベンチマークとして知られています。

Irisデータセットの概要

Irisデータセットは,3種類のアヤメの花(Setosa,Versicolor,Virginica),それぞれ50標本の計150標本から構成されています。各標本は,萼と花弁の長さと幅を測定した4つの特徴量を持っています。

このデータセットは以下のようになっています。

Idsepal_lengthsepal_widthpetal_lengthpetal_widthspecies
15.13.51.40.2Iris-setosa
24.93.01.40.2Iris-setosa
34.73.21.30.2Iris-setosa
..................
1505.93.05.11.8Iris-virginica

Idは各標本の識別子で,speciesはアヤメの種類を示しています。sepal_lengthsepal_widthpetal_lengthpetal_widthは各標本の特徴量です。

実習内容

本実習では,Irisデータセットを使用して,Excelを用いた計算およびグラフ作成を行います。得られた計算結果およびグラフをもとに,Word文書として考察を含むレポートを作成してください。

  1. Setosa(標本1~50)のsepal_lengthに関する以下の統計量を求めよ.

    • 平均値

    • 中央値

    • 最大値

    • 最小値

    • sepal_length5.0以上の標本の個数

  2. Setosa(標本1~50)のsepal_lengthsepal_widthの相関関係を調べよ.

    • ヒント:散布図と相関係数を用いて調べること.

  3. 三種類の花(Setosa,Versicolor,Virginica)のpetal_lengthの分布を比較するため,一つの箱ひげ図を作成せよ.

ダウンロード

レポートの構成

レポートの構成は以下のようにしてください。

注意事項

提出方法

References
  1. FISHER, R. A. (1936). THE USE OF MULTIPLE MEASUREMENTS IN TAXONOMIC PROBLEMS. Annals of Eugenics, 7(2), 179–188. 10.1111/j.1469-1809.1936.tb02137.x