데이터 엔지니어링(Data Engineering)이라는 분야가 있다. 간단히 말하면 '데이터를 분석하기 좋은 형태로 가공하는 것'을 말한다. 조금 더 넓게는 '소프트웨어 공학과 빅데이터가 만나는 영역 전체'를 의미하기도 한다. 인공지능(AI)은 빅데이터 없이는 존재할 수 없다. 빅데이터가 인공지능에게 생명력을 불어넣는 것인데, 빅데이터를 구축하려면 데이터 엔지니어링이 필수적이다.
# 디지털산업을 이끄는 새로운 기술 = 구글 트렌드 검색 결과에서도 확인되는 것과 같이'데이터엔지니어링'은 2016년부터 시장의 주목을 받기 시작했다. 아마존과 야후는 1994년, 구글은 1998년, 페이스북은 2004년 설립됐고 트위터는 이 보다 2년 뒤인 2006년에 시작됐다. 인터넷과 쇼셜 미디어 등을 통해 데이터가 폭발적으로 늘어나자 데이터를 사용해 통찰력을 얻고 보다 합리적인 결론을 얻어 내자는 움직임이 생겼는데 그게 바로 '빅데이터와 인공지능(AI)'이다.
회사측 로고 제공
# 빅데이터를 만들고 인공지능을 숨쉬게 하는 기술 = 최근 '데이터와 인공지능'으로 무장한 데이터엔지니어링 기업의 증시 입성이 거론되고 있다. 바로 데이터블릭스(Databricks)로 세계적으로 가장 널리 사용되는 데이터 엔지니어링 기술을 보유한 업체다. 이 회사는 대량의 정형 또는 비정형 정보를 쉽게 처리할 수 있는 기능과 유연성을 제공한다. 여기서 정형, 비정형이라는 것은 구조이냐? 데이터 관리체계에 규칙이 있는냐?에 따라 나뉜다. 데이터가 이름, 성별, 나이와 같이 규칙이 있는 경우 정형 데이터라고 하고 음원, 이미지, 텍스트 문서 처럼 특정한 규칙이나 패턴이 없는 데이터를 비정형 데이터라고 한다.
데이터브릭스는 데이터베이스를 관리하고 데이터를 시각화하기 위한 다양한 서비스를 제공한다. 회사 이름에서도 나타나 있듯이 데이터(Data)를 벽돌처럼(Bricks) 정형화한다는 의미가 포함돼 있다. 정형화된 데이터로 다양한 고객들에게 AI 서비스를 제공할수 있기 때문에 '데이터 + AI' 기업이라는 별칭이 붙었다.
# 아마존 (NASDAQ:AMZN), 구글, 마이크로소프트와 공생 파트너 = 데이터브릭스의 수익모델은 크게 2가지다. 대학 연구팀으로 부터 비롯된 기업으로 온라인 공개강좌 플랫폼을 통해 데이터 분석기술 강의를 제공한다. 두번째로는 아마존웹서비스(AWS)나 마이크로소프트 애저, 구글 클라우드 중 하나를 연동해 고객기업의 데이터를 처리해준다. 비용은 고객 기업이 데이터브릭스 자원을 사용한 것을 기준으로 후불 지급 받는다.
이 회사는 아마존 웹서비스(AWS), MS 애저(Azure), 구글 클라우드 등을 연동하기 때문에 고객 기업이 보유한 데이터 분석을 위해 초기 데이터를 입력해야 하는 시간과 비용을 절감해 준다.
테크 컬럼리스트 이지현 씨는 "클라우드 기업과 데이터블릭스는 서로 연동돼 있기 때문에 고객을 공유하고 수익도 나눠갖고 있다. 이 같은 공생관계가 아마존과 구글, 마이크로소프트 등이 데이터브릭스에 직접 투자에 나서게 된 배경이 되었다"고 밝혔다.
연방정부를 포함해 광고마케팅, 에너지, 금융, 게임과 미디어, 생명과학분야
등에 이르기까지 다양한 분야에 기업들이 데이터브릭스 서비스를 이용한다.
여러 정부와 기업들로 인해 매출이 급증하고 있다. 현재 기업고객들은 광고마케팅, 에너지, 소프트웨어, 금융과 게임, 미디어와 생명과학 분야 기업들까지 다양하며 연방정부 등을 포함해 6000개 이상이 데이터브릭스의 서비스를 이용하고 있다.
# 매출 급성장 ... 기업가치 380억 달러 = 올해 매출은 4억2500만달러로 예상된다. 내년 매출은 이보다 100% 이상 늘어난 10억 달러에 이르게 될 것으로 기대되고 있다. 데이터브릭스는 올해 16억 달러의 자금을 유치했는데 당시 380억 달러의 기업가치를 평가 받았다. 올해 초 1조원 규모의 펀딩 라운드에는 아마존의 AWS, 마이크로소프트 등이 참여했다.
알리 고드시 CEO
회사측 사진제공
# UC 버클리 대학교의 빅데이터 연구팀이 전신 = 데이터브릭스는 2013년에 설립됐다. 본사는 캘리포니아 샌프란시스코에 있다. 임직원 2000여명 규모의 데이터브릭스는 알리 고드시와 메테이 자하리아, 레이놀드 신, 이은 스토이카 등이 주축이 돼 설립됐으며 현재 알리 고드시가 CEO를 맡고 있다. 알리 고드시(Ali Ghodsi)는 2003년 Mid-Sweden 대학 MBA를 거쳐 2006년 스웨덴에 KTH 왕립 공과대학교에서 분산컴퓨팅 분야 박사학위를 받았다. 아파치 스파크 프로젝트를 만든 인물중 한명이다.
이 회사의 데이터 처리의 특징중 하나가 아파치스파크(Apache Spark)라는 기술이다. 회사 설립당시 이 기술은 UC버클리대학에 빅데이터 연구팀인 AMP랩에서 처음 탄생된 것으로 2013년 데이터브릭스 설립당시 AMP랩이 이 회사의 핵심직인 창업멤버가 되었다.
데이터브릭스의 빅데이터 기술은 하둡(Hadoop)과 아파치스파크 기술로 알려져 있다. 이 기술에 대한 자세한 내용은 LG CNS 블로그(https://blog.lgcns.com/2545)를 참조하기 바란다. 또한, 이 회사의 데이터 처리와 관련된 보다 상세한 내용은 LG CNS 정보기술연구소 기술전략팀이 정리한 "아마존, 구글도 앞다퉈 투자 ... 데이터 블릭스의 비결?"(https://blog.lgcns.com/2520)이라는 인터넷 포스팅이 투자 판단을 위한 자료로 유용할 것으로 보인다.