인공지능을 가르치는 데이터 라벨러
데이터 라벨링은 인공지능(AI)이 스스로 학습할 수 있는 형태로 데이터를 가공하는 작업을 말한다. 인공지능이 사회 각 분야에 활발히 도입되고 가공해야 할 데이터의 양이 방대해지면서 이 작업을 수행할 인력 수요가 크게 늘고 있다. 점자, 수어 등의 데이터 구축 작업에서 장애인이 역량을 발휘할 기회도 많아질 것으로 보인다.
글 편집부
데이터에 이름표를 달아주는 사람들
인터넷을 이용하다 보면 내가 본 동영상과 비슷한 동영상이 추천목록에 뜨고 최근에 산 옷과 비슷한 쇼핑 품목이 광고창에 나타난다. 서비스 기업이 사용하는 알고리즘 때문이라는 것을 이제 많은 이들이 안다. 인공지능 알고리즘이 이용자의 취향이나 사용 패턴을 안다는 것은 이용자가 남긴 데이터를 학습했다는 뜻이다. 단순하게는 동영상 제목이나 상품명이 될 수도 있지만 여러 산업에서 도입되는 인공지능은 그보다 훨씬 복잡한 데이터를 분석한다.
이미지, 영상, 텍스트 등 다양한 형태의 데이터를 인공지능이 올바르게 인지하려면 인간의 도움이 필요하다. 예를 들면 영상의 배경이 된 건물에 주소를 달 수도 있고 사진 속 어느 지점에 자동차가 있다고 표시할 수도 있다. 글에서 키워드를 추출하거나 긴 글을 한 문장으로 요약해야 할 수도 있다. 데이터에 인공지능이 인지할 수 있는 정보를 입력하는 과정이다. 이렇게 정보를 입력하는 작업, 다시 말해 데이터에 라벨(label)을 달아주는 작업이 데이터 라벨링(data labeling)이고 정보를 입력하는 사람은 데이터 라벨러(data labeler)이다. 다른 말로는 ‘annotate(주석을 달다)’라는 단어를 사용해 어노테이션(annotation) 작업, 어노테이터(annotator)라고도 한다.
컴퓨터 활용능력과 라벨링 도구 학습
데이터 라벨링은 이미지, 영상, 텍스트, 오디오 등 가공할 데이터 종류와 활용 목적에 따라 작업 방식이 달라진다. 워드프로세서나 엑셀 같은 오피스프로그램을 사용할 수도 있고 블랙올리브 같은 데이터 라벨링 전문 도구를 사용할 수도 있다. 데이터 라벨러로 일하기 위해 가장 접근하기 쉬운 경로는 크라우드웍스, 에이아이웍스 같은 작업 사이트나 앱이다. 작업량을 할당받아 일하는 방식이기 때문에 부업으로 시작하는 사람이 많고 안정적 수익을 올리기는 어려울 수 있다. 특정 도구를 이용하는 작업은 온라인 혹은 오프라인 교육과정을 이수해야 한다.
데이터 라벨러를 채용하는 회사들은 업무 시작 전에 자체 교육을 진행하는 경우가 많다. 채용 조건에 컴퓨터활용능력은 필수고 유사 업무 경험자나 인공지능 데이터에 이해가 있는 지원자를 우대하는 곳이 많아서 관련 교육과정을 이수해 두면 도움이 될 수 있다. 고용노동부는 크라우드웍스, 테스트웍스 같은 업체와 협약을 맺고 내일배움카드로 교육비를 지원한다.
며칠에서 몇 주 정도 짧은 교육을 이수하고 시작할 수 있는 초급 수준의 데이터 라벨링은 단순 반복 업무가 많고 높은 보수를 기대하기는 어렵다. 경험을 쌓고 전문성을 길러서 데이터 검수나 프로젝트 진행 등 좀 더 어려운 업무에 도전한다면 성장 가능성은 더욱 크다.
데이터 라벨링 도구 사용 예시 / 사진. 테스트웍스, 크라우드웍스