데이터

불확실성

제한된 데이터에서 학습된 AI는 현실 세계를 모두 예측할 수 없으며, 잘못된 확신을 가질 수 있음. 데이터의 불확실성, 모델의 불확실성 등 다양한 형태로 AI에 내재된 요소임.1

획득(Data Acquisition)

인공지능의 기계학습에 필요한 데이터를 현실 세계에서 직접 수집 또는 생성하거나, 이미 보유하고 있는 조직이나 시스템 등으로부터 법률적 제약이 없도록 ‘원시데이터’를 확보하는 활동1

정제(Data Refinement)

획득한 원시데이터를 기계학습에 필요한 형식으로 맞추거나 불필요한 중복을 제거하며, 개인정보를 비식별화 하여 처리하는 등 일련의 전처리 과정을 통해 ‘원천데이터’를 확보하는 활동1

라벨링(Data Labeling)

인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동1

라벨링 데이터(Labeled Data)

원천데이터에 부여한 ‘참값’, 파일형식이나 해상도 등의 속성, 그리고 설명이나 주석 등이 포함된 ‘어노테이션’의 집합1

원시 데이터(Raw Data)

기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터1

원천 데이터(Source Data, Unlabeled Data)

원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터1

인공지능 학습용 데이터 구축

임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동1


Footnotes

  1. 쉽게 활용하는 인공지능 비즈니스 2 3 4 5 6 7 8