実習#

Excelを用いたIrisデータセットの分析と可視化#

Irisデータセットは,研究者R.A. Fisherが1936年の論文「The use of multiple measurements in taxonomic problems」で使用されたデータセットです。現在では,機械学習やデータ分析の分野で広く使用されており,特に分類問題のベンチマークとして知られています。

Irisデータセットの概要#

Irisデータセットは,3種類のアヤメの花(Setosa,Versicolor,Virginica),それぞれ50標本の計150標本から構成されています。各標本は,萼と花弁の長さと幅を測定した4つの特徴量を持っています。

  • sepal length: 萼の長さ

  • sepal width: 萼の幅

  • petal length: 花弁の長さ

  • petal width: 花弁の幅

このデータセットは以下のようになっています。

Id

sepal_length

sepal_width

petal_length

petal_width

species

1

5.1

3.5

1.4

0.2

Iris-setosa

2

4.9

3.0

1.4

0.2

Iris-setosa

3

4.7

3.2

1.3

0.2

Iris-setosa

150

5.9

3.0

5.1

1.8

Iris-virginica

Idは各標本の識別子で,speciesはアヤメの種類を示しています。sepal_lengthsepal_widthpetal_lengthpetal_widthは各標本の特徴量です。

実習内容#

本実習では,Irisデータセットを使用して,Excelを用いた計算およびグラフ作成を行います。得られた計算結果およびグラフをもとに,Word文書として考察を含むレポートを作成してください。

  1. Setosa(標本1~50)のsepal_lengthに関する以下の統計量を求めよ.

    • 平均値

    • 中央値

    • 最大値

    • 最小値

    • sepal_length5.0以上の標本の個数

  2. Setosa(標本1~50)のsepal_lengthsepal_widthの相関関係を調べよ.

    • ヒント:散布図と相関係数を用いて調べること.

  3. 三種類の花(Setosa,Versicolor,Virginica)のpetal_lengthの分布を比較するため,一つの箱ひげ図を作成せよ.

ダウンロード#

レポートの構成#

レポートの構成は以下のようにしてください。

  • タイトル(「Excelを用いたIrisデータセットの分析と可視化」にする)

  • 氏名,学籍番号

  • 概要(50~100字程度)

  • はじめに

    • Irisデータセットの概要や実習の目的など

    • ※生成AIの使用可

  • 実習内容

    • 実習1: 統計量の計算

    • 実習2: 相関関係の調査

    • 実習3: 箱ひげ図の作成

    • ※生成AIの使用不可

  • 考察

    • 実習結果に対する考察,気づきなど

    • ※生成AIの使用不可

  • おわりに

    • 実習全体のまとめ

    • ※生成AIの使用不可

  • 謝辞

    • 必要に応じて。生成AIを使用した場合はその旨を記載

  • 参考文献

    • 論文,Webページ,教材などを適切な形式で記載

注意事項#

  • レポートは論理的かつ明確に記述すること.

  • 数式,図,表を適切に使用し,レポートを作成すること.

  • 数式番号,図表番号を付けること.

  • 図表番号は相互参照を使用し,本文中で参照すること.

  • 参考文献の形式に注意すること.

  • Excelで作成したグラフはベクター画像としてWord文書に挿入すること.

提出方法#

  • レポートのファイル名は「学籍番号_氏名.docx」とすること.

  • Google Classroomに提出すること.