본문 바로가기
IT 정보 꿀팁

데이터 라벨링(Data Labeling)이 뭔가요?

by 청춘23 2023. 3. 16.

'정말 시대가 변하고 있구나, 다른 세상이 오는구나.'

데이터 라벨링(Data Labeling)을 처음 알았을 때 들었던 생각입니다.

생소하기도 하면서 다른 세계가 열렸는데도 '나는 우물 안 개구리처럼 사는 게 아닌가' 하는 생각이 들더라고요.

앞으로 수십 년을 더 살아야 할 세상, 뭐라도 해야겠다고 생각했습니다. 

저와 같은 고민을 해 보신 분들, 그리고 데이터 라벨링이 궁금하신 분들을 위해 제가 알고 있는 것을 정리해 보려고 합니다.

 

데이터 라벨링(Data Labeling)이 뭔가요?

 

 

데이터 라벨링에 대한 관심이 커졌지만, 여전히 아는 사람만 아는 개념이기도 합니다.

'고양이'를 예로 들어 보겠습니다. 사람은 고양이를 보면 ‘고양이’라고 인지합니다. 고양이의 뒷모습, 옆모습 등 다양한 각도에서 보더라도 ‘고양이’라는 것을 알 수 있지요. 

 

하지만 인공지능(AI)은 다릅니다. ‘고양이’를 '고양이'라고 입력해야 대상을 ‘고양이’라고 출력합니다. 고양이의 뒷모습, 옆모습 등 다른 변수가 나오면 인공지능은 알지 못합니다. 입력된 데이터가 없기 때문입니다. 즉, 고양이 뒷모습과 옆모습을 보여주고 이것 역시 ‘고양이’라는 것을 일일이 알려줘야 하는 것입니다.

 

이렇듯 인공지능에 다양한 ‘고양이’ 모습을 학습할 수 있도록 고양이의 앞모습, 뒷모습, 옆모습에 ‘고양이’라는 이름을 달아 주는 것이 바로 데이터 라벨링입니다. 

 

  • 데이터 라벨(Data Labeling)은 인공지능(AI)이 스스로 학습할 수 있도록 데이터를 가공하는 것을 의미합니다.
  • 데이터 라벨(Data Labeler)는 인공지능(AI)이 스스로 학습할 수 있도록 데이터를 가공하는 일을 하는 사람을 뜻합니다.

 

이러한 학습용 데이터를 만드는 일은 데이터 수집, 데이터 정제, 데이터 라벨링, 데이터 검수 과정을 거쳐 진행합니다.

 

    • 데이터 수집 : 말 그대로 학습할 데이터를 수집하는 것을 뜻합니다. 사진이나 촬영한 영상, 음성을 모아 업로드하는 일이 여기에 해당합니다.
    • 데이터 정제 : 수집한 데이터에서 오류를 제거하거나 제각각인 크기를 필요한 사이즈로 변형하는 것, 노출되면 안 되는 개인정보를 식별되지 않게 처리하는 것이 데이터 정제입니다.
    • 데이터 라벨링 : 데이터 정제까지 거친 데이터 중에서 의미 있는 데이터를 찾거나 선택하여 그 데이터에 위치, 크기, 대상 정보 등을 달아주는 일입니다. 데이터 라벨러가 하는 일이 바로 이 단계에 해당합니다.
    • 데이터 검수 : 데이터 라벨링이 잘못되면 인공지능(AI)이 잘못된 학습을 할 수 있습니다. 이에 라벨링 된 데이터를 검수하는 과정을 거칩니다. ◀ 데이터 검수자가 하는 일이 바로 이 단계에 해당합니다.

 

이제 데이터 라벨러가 어느 단계의 일을 하고 있는지 이해가 쉬우실 것입니다. 

데이터 라벨러가 하는 데이터 라벨링의 범주는 생각보다 다양합니다. 몇 가지 쉬운 예를 들면 다음과 같습니다.

 

  • 이미지에 마우스를 박스를 그려 고양이인지, 강아지인지 이름을 달아주기도 합니다.
  • 이미지에서 글자에 박스를 그린 후 태깅하기도 합니다.
  • 사람의 표정을 보고 감정을 추측하기도 합니다.
  • 음성을 듣고 동일한 사람인지 구분하여 태깅하는 작업도 있습니다.
  • 사진을 보고 도로와 자동차를 구분하여 이름을 달아주기도 합니다.

 

인공지능(AI)의 학습을 위해 필요한 데이터 정보가 무궁무진하기 때문에 데이터 라벨링 작업 분야 역시 다양할 수밖에 없습니다. 업무의 난이도는 컴퓨터만 있다면 누구나 도전할 수 있다는 점에서 어렵지 않다고 할 수 있습니다. 정말 쉬운 작업부터 전문성이 필요한 고난도 작업도 존재합니다.

 

데이터 하나하나에 이름이나 정보를 태깅한다는 점에서 ‘인형 눈 달기’와 비교되기도 하는 것 같습니다.

말 그대로 ‘디지털 노가다’, ‘디지털 인형 눈 달기’라고도 볼 수 있을 것 같습니다. 

 

말 그대로 노가다인 셈인데 작업을 해보면 시간 대비 정말 비효율적이라는 생각이 들 때도 있습니다.

하지만 일하는 시간이 정해져 있지 않고, 시간 나는 대로 틈틈이 할 수 있다는 장점이 정말 강력합니다.

일하는 만큼 수익이 나오므로, 데이터 라벨링 툴을 다루는 스킬이나 속도가 향상되면 그만큼 유리한 부분도 있습니다. 

 

‘디지털 노가다’ 해 보실 의향 있으신가요? 

저는 무조건 해봐야겠다고 생각했고, 망설임 없이 시도해 보았습니다.

시대에 너무 뒤떨어져 있는 것은 아닌가 고민도 되고,

'인공지능과 관련된 실무 무언가에 한발이라도 걸쳐야 그 세계에 대해 지속해서 알아가지 않을까?'

라고 생각했으니까요. 

 

 

 

 

제 경험과 생각이 관심 있는 분들께 도움 되기를 기원합니다.

다음 글에서는 실제 데이터 라벨링 작업 경험과 자격증 취득 과정을 소개해 드릴게요!

 

 

 

 

 

 

※ 데이러 라벨링 자격증으로 AIDE(인공지능데이터전문가 자격증)가 있습니다.

※ AIDE 기출 예상 이론 정리가 필요하시면 아래▼ 글을 참고하세요!

 

2023.02.27 - [IT 정보 꿀팁] - AIDE 1급 자격증 기출 예상 이론 정리 (데이러 라벨링 자격증 시험 준비)

 

AIDE 1급 자격증 기출 예상 이론 정리 (데이러 라벨링 자격증 시험 준비)

인공지능(AI) 시대, 인공지능이 보다 정확하고 숙력된 기술을 학습할 수 있기 위해서는 '데이터 라벨링' 작업이 정말 중요합니다. 데이터 라벨링의 중요성이 커지면서 '데이터 라벨러'의 전문성

young23.linkwe.kr

 

 

 

2023.04.30 - [IT 정보 꿀팁] - AIDE 2급 기출 예상 이론 정리 ① (데이러 라벨링 자격증 시험 준비)

 

AIDE 2급 기출 예상 이론 정리 ① (데이러 라벨링 자격증 시험 준비)

AIDE(Artificial Intelligence Data Expert)은 '데이터 라벨러'의 전문성을 인증하기 위한 자격증입니다. AIDE 2급은 인공지능의 기초 이론과 전문 데이터 라벨러로서 능력을 인증받기 위한 자격증으로 '인공

young23.linkwe.kr

 

 

 

 

 

 

댓글