원본 논문: “The use of multiple measurements in taxonomic problems”
데이터 크기: 150개 샘플 × 4개 특성 + 1개 타겟
문제 유형: 다중 클래스 분류 (3개 클래스)
역사적 배경
1936년: 영국 통계학자 Ronald Fisher가 처음 소개
목적: 선형 판별 분석(Linear Discriminant Analysis)의 예시
의의: 패턴 인식 및 머신러닝 분야의 고전적 벤치마크
현재: 머신러닝 교육의 “Hello World” 데이터셋
데이터 구조
특성 (Features)
특성명
영어명
단위
설명
꽃받침 길이
sepal length
cm
외부 꽃잎의 길이
꽃받침 너비
sepal width
cm
외부 꽃잎의 너비
꽃잎 길이
petal length
cm
내부 꽃잎의 길이
꽃잎 너비
petal width
cm
내부 꽃잎의 너비
타겟 클래스
클래스
학명
한국명
샘플 수
0
Iris setosa
세토사
50
1
Iris versicolor
버시컬러
50
2
Iris virginica
버지니카
50
데이터 통계
특성별 기본 통계:
- 꽃받침 길이: 평균 5.84cm, 표준편차 0.83
- 꽃받침 너비: 평균 3.06cm, 표준편차 0.44
- 꽃잎 길이: 평균 3.76cm, 표준편차 1.77
- 꽃잎 너비: 평균 1.20cm, 표준편차 0.76
데이터 특성 분석
클래스별 특성 분포
Iris Setosa (세토사)
꽃받침 길이: 4.3 ~ 5.8cm (평균 5.0cm)
꽃받침 너비: 2.3 ~ 4.4cm (평균 3.4cm)
꽃잎 길이: 1.0 ~ 1.9cm (평균 1.5cm)
꽃잎 너비: 0.1 ~ 0.6cm (평균 0.2cm)
특징: 다른 종과 명확히 구분되는 작은 꽃잎
Iris Versicolor (버시컬러)
꽃받침 길이: 4.9 ~ 7.0cm (평균 5.9cm)
꽃받침 너비: 2.0 ~ 3.4cm (평균 2.8cm)
꽃잎 길이: 3.0 ~ 5.1cm (평균 4.3cm)
꽃잎 너비: 1.0 ~ 1.8cm (평균 1.3cm)
특징: 중간 크기, Virginica와 일부 겹침
Iris Virginica (버지니카)
꽃받침 길이: 4.9 ~ 7.9cm (평균 6.6cm)
꽃받침 너비: 2.2 ~ 3.8cm (평균 3.0cm)
꽃잎 길이: 4.5 ~ 6.9cm (평균 5.6cm)
꽃잎 너비: 1.4 ~ 2.5cm (평균 2.0cm)
특징: 가장 큰 꽃잎, Versicolor와 경계 모호
클래스 분리 특성
Setosa: 다른 두 클래스와 선형 분리 가능
Versicolor vs Virginica: 선형 분리 불가능, 비선형 경계 필요
전체 분류 정확도: 일반적으로 95-100% 달성 가능
데이터 접근 방법
사이킷런을 통한 로드
from sklearn.datasets import load_iris# 데이터 로드iris = load_iris()# 데이터 구조 확인print(f"데이터 형태: {iris.data.shape}")print(f"특성 이름: {iris.feature_names}")print(f"클래스 이름: {iris.target_names}")