AIDE 1급 자격증 기출 예상 이론 정리 (데이러 라벨링 자격증 시험 준비)

인공지능(AI) 시대, 인공지능이 보다 정확하고 숙력된 기술을 학습할 수 있기 위해서는 '데이터 라벨링' 작업이 정말 중요합니다. 데이터 라벨링의 중요성이 커지면서 '데이터 라벨러'의 전문성도 점점 중요해지고 있습니다. AIDE(Artificial Intelligence Data Expert)은 이러한 전문성을 인증하기 위한 자격증입니다.

AIDE 1급은 인공지능의 심화 이론과 검수에 대한 능력을 인증받기 위한 자격증으로 '인공지능데이터전문가 1급'이라고도 합니다. AIDE 자격증에 대해서는 별도로 소개하는 글을 남기기로 하고, 이번 글에서는 AIDE 1급 자격증 취득을 위한 기출 예상 이론만 공부하여 정리하겠습니다.

아래 내용은 제가 공부하며 정리한 내용이고, 실제로 1급에 합격도 했습니다! ^^

아래 내용을 꼼꼼하게 공부하면 이론 부분은 충분히 합격하실 수 있을 거예요!

모두 힘내세요~!

<목차>
[1] 인공지능방법론
[2] 빅데이터
[3] 인공지능 알고리즘
[4] 딥러닝 알고리즘
[5] 데이터 검수

[1] 인공지능방법론

1. 4차 산업혁명 : 인공지능( AI )과 정보 ( 빅데이터 )의 발전을 통한 산업혁명

· 4차 산업혁명 : 21C 초~, 인공지능, 빅데이터, 사물인터넷, 3D프린팅, 로봇, 공유경제, 드론

· 19~20C 초 : 전기에너지, 대량생산혁명

· 3차 산업혁명 : 20C 후반 컴퓨터, 인터넷, 지식정보혁명

2. 인공지능서비스 개발의 4단계

⓵데이터 획득 ➞ ( ⓶데이터 가공(전처리) ) ➞ ⓷모델생성 ➞ ⓸서비스 개발(API 개발)

3. M2M

· M2M(Machine To Machine)이란 IoT사물(지능) 통신을 의미. 기계간의 통신 및 사람이 조작하는 디바이스와 기계간의 통신. 인간의 개입 없는 무인화, 지능화 서비스

· 인공지능서비스 개발 단계 중 ( 데이터 획득 )에 해당

4. 데이터 가공(전처리)

· 수집된 데이터를 인공 지능이 학습할 수 있는 형태의 데이터로 변화시켜주는 과정

· 데이터 가공 작업 : ⓵데이터 라벨링, ⓶구분·선별, ⓷포맷변경, ⓸결합·변형

· 인공지능이 학습할 수 있는 형태로 데이터를 만드는 작업을 ( 데이터 라벨링 )이라고 함

· 데이터를 가공하는 작업은 ( ⓵데이터 라벨링 )과 데이터를 ⓶구분·선별하고 데이터 ⓷포맷을 변경하는 과정, 데이터의 ⓸결합·변형 등 과정을 거쳐서 데이터를 가공

5. 인공지능 모델 생성과정

⓵모델개발 ➞ ⓶데이터입력 ➞ ⓷데이터학습 ➞ ⓸모델수정

· 데이터 라벨링에 해당하는 모델 생성 : 데이터 입력 + 데이터 학습

· ( 데이터 라벨링 )의 품질은 인공지능의 성능을 좌우하는 중요한 요소

6. 머신러닝(Machine Leaning)

지능형 에이전트, 행동협업지능, 추론 지식표현, 상황감정이해, 시각언어, 청각기능을 활용하는 모델

7. 인공지능(AI)

사람의 뇌를 흉내 내는 ( 인공신경망 )과 다양한 ( 머신러닝 ) 알고리즘을 통해 구현

8. 실시간 서비스 (API 개발)

인공지능 모델생성물은 예측할 수 있는 수치정보를 파악하는 형태로만 구현되고, 사용자가 쉽게 접할 수 없는 결과물은 아니어서 이를 사용자들이 볼 수 있는 형태의 서비스 즉, 스마트폰 어플이나 홈페이지 같은 서비스로 개발해주는 것

9. 퍼셉트론 (Perceptron)

· 사람의 뉴런 구조를 컴퓨터로 그대로 구현하여 만든 컴퓨터 프로그램

· 1957년 ( 로젠블라트 )가 고안한 알고리즘

· 딥러닝(신경망)의 기원이 되는 알고리즘

· 퍼셉트론의 구성 : 입력값, 가중치 / 입력총합 / 활성화함수 / 출력값

10. 인공신경망 (ANN: Artificial Neural Network)

· 생물학의 신경망에서 영감을 얻은 학습 알고리즘

· 인공지능에 가장 기본이 되는 신경망

· 입력층, 은닉층, 출력층으로 구성

⓵ 입력층(input layer) : 학습하고 데이터를 입력하는 층

⓶ 은닉층(hidden layer) : 입력된 데이터를 여러 단계로 처리하는 층

⓷ 출력층(output layer) : 처리된 결과를 출력하는 층

11. 인공지능방법론

· 범위가 큰 순서 : 인공지능(大) > 머신러닝 > 딥러닝(小)

· 머신러닝과 딥러닝의 차이? 기계의 자기학습여부

● 인공지능(AI) : 인간의 지적능력을 컴퓨터를 통해 구현하는 단계 (최종목적)

● 머신러닝(ML)

· 스스로 학습하여 인공지능의 성능을 향상시키는 기술 (정해진 업무를 스스로 학습)
· 데이터의 여러 특징을 사람이 직접 분석/판단
· 일정부분 사람의 개입 필요

● 딥러닝(DL)

· 인간의 뉴런과 비슷한 인공신경망으로 학습하는 기술
· 머신러닝의 한계를 넘어서는 기술
· 기계가 자동으로 학습하여 데이터에서 특징 추출
· 사람 개입 필요X (사람이 데이터는 제공)
· 딥러닝은 예측과 회귀에 광범위하게 사용
· 머신러닝 방법 중 하나
· 기계를 학습하는데 가장 좋은 성능을 발휘

12. 머신러닝의 학습방법

⓵ 지도학습(Supervised Learning) : 문제와 정답과 답을 알려주고 학습 (예측, 분류, 회귀)

⓶ 비지도학습(Unsupervised Learning) : 답을 가르쳐주지 않고 학습 (연관규칙, 군집)

⓷ 강화학습 (Reinforcement Learning) : 보상을 통해 학습하는 방식 (보상)

※ 머신러닝 학습방법 3가지 중, 딥러닝은 어디에 해당? 지도학습

13. 지도학습(Supervised Learning, 슈퍼바이저드 러닝)

· 문제와 정답을 알려주고 학습 : 딥러닝

· 성능 우수 but 많은 양의 문제와 답을 주어야 하는 것이 단점

· 비지도학습보다 단순. 일반적 레이블이 지정된 데이터라벨링 사용

· 지도학습은 분류와 회귀에 사용하는 인공지능 학습 방법

· ex) 그림카드

[2] 빅테이터

14. 빅데이터 등장 배경

· 인터넷과 모바일 시대, 소셜미디어 및 스마트폰 보급으로 빅데이터 시대로 접어들었음

· 기존의 정형데이터에서 비정형데이터로 대량의 데이터 발생

· 대량의 정형, 비정형 데이터로부터 가치를 추출하는 기술 : 빅데이터

· 컴퓨터 발전에 의해 데이터의 양과 형태가 변화

15. 빅데이터 3V

규모(Volume) : 데이터 양의 증가, 수십테라규모, 레코드, 트랙젝션

속도(Velocity) : 실시간처리, 실시간분석, 스트림

다양성(Variety) : 데이터의 다양성, 정형데이터, 비정형데이터, 반정형데이터

※ 빅데이터 4V

규모(Volume)

속도(Velocity)

다양성(Variety)

+ 정확성(Veracity)

※ 빅데이터 5V

규모(Volume)

속도(Velocity)

다양성(Variety)

정확성(Veracity)

+ 가치(Value)

17. 데이터의 종류

⓵ 정형(Structure) 데이터

· 구조화된 데이터, 고정된 필드에 저장된 데이터. ex) 데이터베이스, 엑셀, CSV, 수치화 가능 데이터

⓶ 반정형(Semi-Structured) 데이터

· 고정된 필드는 아니지만 스키마를 포함, 연산불가. ex) XML, HTML, JSON 등

⓷ 비정형(Unstructured) 데이터

· 고정되지 않은 데이터, 연산불가, 형태없음. ex) 소셜데이터, 영상, 음성, 이미지

18. 빅데이터의 특징

· 대량의 모든 데이터

· 데이터의 가치와 결과분석 기술

· 빅데이터 플랫폼의 등장(하드웨어, 소프트웨어, 어플리케이션 등장)

· 대규모의 데이터 관리기술

· 인공지능 : 학습하기 좋은 데이터 ( 라벨링 )이 필요

· 빅데이터 : 인공지능 학습을 위한 가공 ( 전처리 )이 필요

19. 빅데이터의 처리과정(총 6단계)

⓵데이터소스 ➞ ⓶수집 ➞ ⓷저장 ➞ ( ⓸처리 ) ➞ ⓹분석 ➞ ⓺표현

20. 데이터 라벨링 구축 5단계

임무 정의 ➞ 데이터 획득 ➞ 데이터 정제 (원천데이터) ➞ 데이터 라벨링 (라벨링 데이터) ➞ 데이터 학습

21. 데이터 획득

· 원시데이터 : 기계학습을 목적으로 획득단계에서 수집/생성한 음성, 이미지, 영상, 텍스트 등의 데이터

· 다양한 교통수단을 구별하는 AI

22. 데이터 정제

· 원천데이터 : 필요한 형식이나 크기에 맞게 변형. 데이터 중복 제거. ex)개인정보 비식별화 서치, 수집된 교통수단 번호판이 보이지 않게 가린 형태의 데이터

· 데이터 라벨링 : 인공지능이 학습에 활용할 수 있도록 라벨을 달아주는 작업

23. 데이터 라벨링(Data Labeling)

· 인공지능 모델 학습을 위해 기계가 학습할 수 있는 형태로 데이터를 가공하는 것

· 데이터셋(Dataset) : 인공지능 학습을 위해 필요한 데이터를 관련성 있게 모은 것

· (원천 데이터)와 (라벨링 데이터)를 모아놓은 자료의 집합

· 라벨링의 종류 : PASCAL VOC, YOLO, CreateML 등

24. 크롤링(Crawling)

· 인터넷의 방대한 데이터를 우리가 분석하고 활용하기 쉽게 데이터를 수집하는 행위

· 크롤러(Crawler) - 크롤링하는 프로그램

· 크롤러를 통하여 웹정보를 분석하고 수집한다.

25. API (Application Programming Interface)

· 누군가 만든 프로그램을 쉽게 사용하도록 구성한 프로그램

· 보유한 데이터 프로그램을 허가받아 각자의 ( 인증키 )로 사용하는 방식

· 인공지능, 빅데이터에서 보편적으로 사용

· 사용자가 빅데이터를 검색하기 위하여 API를 사용하는 경우가 많다.

[3] 인공지능 알고리즘

26. 인공지능 객체검출 방법

하나의 객체(single object)와 여러개의 객체(multi object)를 인식하는 방법은 다름

⓵ single object (1개 객체) : 검출하려는 객체가 1개, 분류 + 영역표시

➊분류(classification)

- 학습을 통하여 1개의 object를 찾는 것

- 데이터셋(데이터, 정답레이블)을 함께 학습한 인공지능이 이를 토대로 새로운 이미지를 식별하게 되는 과정

- 학습되지 않은 class는 인식하지 못함

➋영역표시(localization)

- 분류를 통하여 검출함 객체의 정보가 있는 위치를 보기 쉽게 box 형태로 지정하는 것

⓶ multi object (여러 개 객체) : 검출하려는 객체가 여러 개, 객체검출 + 의미적 분할

➊객체검출(object detection)

- 학습을 통해 여러개의 객체를 인식하고 인식된 객체를 바운딩 박스와 색으로 영역을 표시하는 과정

➋의미적 분할(instance segmentation)

- 객체 인식에서 이미지 내의 의미있는 단위로 분할하는 작업

- 정교하고 복잡한 인공지능 구현을 위해 이미지의 영역별 의미를 부여하는 경우 사용하는 방식

27. 딥러닝의 동작원리

· 딥러닝을 위해 많은 양의 학습 데이터와 학습이 필요

· 학습데이터 : 훈련(train) 데이터(80%) + 평가(test) 데이터(20%)로 분류하여 사용

· 훈련셋 : 반복학습(epoch)을 통해 손실(loss)를 줄이고 정확도(accuracy)를 높인다.

· 평가셋 : 시험셋(test)을 이용하여 학습이 잘되었는지 결과를 예측(predict)한다.

28. 인공지능 프로그램 개발절차 5단계

⓵ 라이브러리 읽어 들이기

⓶ 데이터를 읽어 들이고 전처리하기

⓷ 신경망 만들기

⓸ 모델 만들기(학습하기)

⓹ 모델 적용하기(예측하기)

29. 심층 신경망(Deep Nural Network) : DNN

· 심층 신경망 : 입력레이어 ➞ 중간레이어 ➞ 출력레이어

· 퍼셉트론의 구성 : 입력값,가중치 / 입력총합 / 활성화함수 / 출력값

30. 딥러닝의 구조

· 입력레이어(노드1 + 가중치1) ➞ 히든레이어(은닉층, 활성화함수) ➞ 출력레이어

· 노드와 가중치의 합을 출력하기 위해 출력을 활성화함수를 이용하여 출력신호로 변경

31. 활성화함수

· 입력된 데이터의 가중치의 합을 출력 신호로 변환하는 함수

· 활성화함수의 종류 : ⓵ 시그모이드(sigmoid) 함수, ⓶ 쌍곡선(Tanh) 함수, ⓷ 렐루함수(Relu)

⓵ 시그모이드(sigmoid) 함수

· S자와 유사한 완만한 시그모이드 커브형태를 보임
· 모든 실수 입력 값을 0보다 크고 1보다 작은 미분 가능한 수로 변환
· Logistic classigication과 같은 분류 문제 가설, 비용함수(cost function)에 많이 사용

⓶ 쌍곡선(Tanh) 함수

· 하이퍼블릭 탄젠트라고도 불림
· 함수 값을 –1과 1 사이의 실수로 제한
· 경사하강법 사용시 시그모이드 함수에서 발행하는 편향이동이 발생하지 않음
· 기울기가 양수, 음수 모두 나올 수 있으므로 시그모이드 함수보다 효율성이 뛰어남

⓷ 렐루(Relu) 함수

· 은닉층(hidden layer)에서 많이 사용되는 함수.
· 선형함수라고 함
· +/-가 반복되는 신호에서 –흐름을 차단
· 기울기 소실 문제가 발생하지 않아 많이 사용

※손실함수(loss function) : 손실 함수값이 최소화되도록 하는 ( 가중치 )와 ( 편향 )을 찾는 학습

※경사하강법(Gradient descent) : 최적화(Optimization) 방법 중 하나. 함수의 기울기를 구하고 기울기(경사의 절대값)가 낮은 쪽으로 이동시켜 극값에 이를 때까지 반복하는 것

32. 옵티마이저(Optimizer) 함수의 가장 낮은 값을 찾는 방법

Momentum

Adagrad

RMSProp

AdaDelta

Adam (현재 가장 많이 사용하는 옵티마이저)

[4] 딥러닝 알고리즘: CNN, RNN, GAN(용도에 따라 사용하는 알고리즘이 다름)

33. 합성곱신경망 - CNN(Convolution Neural Network)

· 이미지, 비디오 인식과 같이 사진, 영상 분야에 활용

· 합성곱필터가 사진을 지나가면서 사진의 특징을 찾는 과정

· 합성곱은 사람의 뇌에서 시각을 받아들이는 ‘시각피질’ 구조를 모방하여 만드는 방법

· 데이터의 특징을 분석하여 패턴을 파악하는 구조

· 합성곱신경망(CNN)은 데이터 특징을 분석하여 패턴을 파악하는 구조. ( Convolution 컨볼루션 )과 ( Pooling 풀링 ) 과정으로 진행.

· 입력된 이미지에 필터를 통과시켜 이미지 특징을 찾아내는 방법으로 ( 컨볼루션 Convolution ) 과정을 통하여 이미지의 크기는 줄어들고 고유의 정보값은 가짐.

※컨볼루션(Convolution) : 여러 개 필터로 이미지 세부 특징을 추출하며 학습하는 방법

※풀링(Pooling) : 컨볼루션을 통과한 데이터의 크기를 다시 줄이는 역할을 함

· 컬러 이미지는 RGB(빨강, 초록, 파랑)의 세가지 채널로 인식. 흑백은 하나의 채널로 인식

· RGB 값을 채널(channel)이라고 함

· 합성곱신경망(CNN)은 입력값을 RGB 채널로 분리하고 분리된 데이터를 특성지도를 이용하여 특징점을 찾아냄.

· 특징점을 찾는 과정을 Convolution(컨볼루션) 이라고 함. 컨볼루션을 통과한 데이터는 다시 크기를 줄이기 위한 Pooling(풀링)과정을 거치며 이 과정을 반복.

· CNN의 전체 흐름도 : 입력값 ➞ RGB ➞ 특성맵 ➞ 풀링 ➞ 분류기

34. 순환신경망 - RNN(Recurrent Neural Network)

· 음성, 언어처리에 많이 사용되는 계층의 출력이 순환하는 신경망

35. 생성적 적대 신경망 - GAN(Generative Adversarial Network)

· 이미지 생성, 이미지 복원, 동작 흉내, 신약 개발, 음성 생성, 편집, 변환 등에 활용

· 생성자와 구분자가 서로 경쟁(Adversarial)하며 데이터를 생성(Generative)하는 모델

· 생성자(Generator) : 인물사진을 만들어 내는 것

· 구분자(Discriminator) : 만들어진 인물사진을 평가

· 생성자와 구분자가 서로 대립하며 서로의 성능을 점차 개선해 나가는 학습 방법

· 가짜 데이터를 대량으로 생산하여 데이터의 부족함을 보완

· 진짜같은 가짜 데이터를 무한대로 만들 수 있음

· 이안 굿펠로우가 고안

[5] 데이터 검수

36. 검수순서

· 검수가이드, 작업가이드 숙지

· 집중할 수 있는 환경 만들기

· 검수 진행

· 작업된 데이터 꼼꼼히 살펴보기

· 반려사유를 구체적이고 명확하기 작성하기

· 문제 발생시 데이터 PM과 소통하기

37. 검수하기 전 준비사항

· 가이드 숙지 : 검수가이드는 물론이고 작업가이드도 꼼꼼히 확인

· 작업환경 : 집중할 수 있는 환경 만들기

· 반려 시에는 구체적이고 명확하게 반려 사유를 작성해서 전달

· 반려시 반려 사유와 작업해야 하는 내용을 명확하고 구체적으로 작성

2023.04.30 - [IT 정보 꿀팁] - AIDE 2급 기출 예상 이론 정리 ① (데이러 라벨링 자격증 시험 준비)

AIDE 2급 기출 예상 이론 정리 ① (데이러 라벨링 자격증 시험 준비)

AIDE(Artificial Intelligence Data Expert)은 '데이터 라벨러'의 전문성을 인증하기 위한 자격증입니다. AIDE 2급은 인공지능의 기초 이론과 전문 데이터 라벨러로서 능력을 인증받기 위한 자격증으로 '인공

young23.linkwe.kr

2023.03.16 - [IT 정보 꿀팁] - 데이터 라벨링(Data Labeling)이 뭔가요?

데이터 라벨링(Data Labeling)이 뭔가요?

'정말 시대가 변하고 있구나, 다른 세상이 오는구나.' 데이터 라벨링(Data Labeling)을 처음 알았을 때 들었던 생각입니다. 생소하기도 하면서 다른 세계가 열렸는데도 '나는 우물 안 개구리처럼 사