5.4. 実習#

5.4.1. Irisデータセット#

Irisデータセットは、研究者R.A. Fisherが1936年の論文「The use of multiple measurements in taxonomic problems」で使用されたデータセットです。現在では、機械学習やデータ分析の分野で広く使用されており、特に分類問題のベンチマークとして知られています。

このデータセットは、3種類のアヤメの花(Setosa、Versicolor、Virginica)、それぞれ50標本の計150標本から構成されています。各標本は、萼と花弁の長さと幅を測定した4つの特徴量を持っています。

  • sepal length: 萼の長さ

  • sepal width: 萼の幅

  • petal length: 花弁の長さ

  • petal width: 花弁の幅

このデータセットは以下のようになっています。

Id

sepal_length

sepal_width

petal_length

petal_width

species

1

5.1

3.5

1.4

0.2

Iris-setosa

2

4.9

3.0

1.4

0.2

Iris-setosa

3

4.7

3.2

1.3

0.2

Iris-setosa

150

5.9

3.0

5.1

1.8

Iris-virginica

Idは各標本の識別子で、speciesはアヤメの種類を示しています。sepal_lengthsepal_widthpetal_lengthpetal_widthは各標本の特徴量です。

以下リンクからデータセットをダウンロードできます。

5.4.1.1. 実習問題#

  1. Setosa(標本1~50)のsepal_lengthについて、平均値、中央値、最大値、最小値を求めてください。

  2. Setosa(標本1~50)のsepal_lengthについて、5.0以上の標本の数を求めてください。

  3. Setosa(標本1~50)のsepal_lengthsepal_widthの相関関係を調べてください。

    • ヒント:相関関係を調べるために、散布図を作成し、相関係数を計算してください。

  4. 三種類の花(Setosa、Versicolor、Virginica)のpetal_lengthの分布を比較するために、箱ひげ図を作成してください。