Saturday 26th October 2024,
최윤섭의 디지털 헬스케어

데이터 사이언티스트: 21세기의 가장 섹시한 직업!

최근에 소위 “빅 데이터 (Big Data)” 라는 트렌드가 사회 및 기업 환경에서 큰 화두로 떠올랐습니다. 우리는 IT 기술의 발달과 SNS 등의 활성화를 통해서 끊임 없이 거대한 데이터가 쏟아져 나오는 시대에 살고 있습니다. 때로는 petabyte 에 이르는 이 데이터를 어떻게 수집, 저장, 분석, 활용할 것인가에 기업의 흥망이 달려 있다고 해도 과언이 아닌 시대가 되었습니다.

이미 Google, LinkedIn, GE, Zynga, Netflix 등의 선도기업들은 이러한 빅 데이터를 경영 전략 및 의사 결정에 적극적으로 활용하고 있으며, 이에 따라서 이러한 데이터를 다루는 분야인 ‘데이터 과학(Data Science)’‘데이터 사이언티스트 (Data Scientist)’라는 새로운 직업이 각광받게 되었습니다. 이런 데이터 사이언티스트 들은 무엇을 하는 사람들일까요? 이런 사람들은 왜 필요하며, 어디서 찾을 수 있고, 어떠한 기준으로 그들의 능력을 평가해야 할까요? 그리고 이들을 어떻게해야 동기부여하고, 능력을 최대한 발휘하도록 할 수 있을까요?

또한, healthcare 및 personalized medicine 등의 측면에서 볼 때에도 ‘빅 데이터’와 ‘데이터 사이언티스트’ 들은 큰 의미를 지닙니다. 우리 인간은 방대한 분량의 유전 정보(genetic information)를 DNA 속에 가지고 있는, ‘빅 데이터’ 그 자체라고 할 수 있습니다. Personalized Medicine과 관련한 다른 포스팅에도 소개했듯이, DNA 시퀀싱 기술의 발달과 컴퓨터 기술의 눈부신 발전으로, 이제는 개개인의 유전체 전체를 읽고, 그 유전 정보를 저장 및 분석하고, 질병의 발병률 예측과 치료제 개발에 이용할 수 있는 시대가 열렸습니다. 이러한 방대한 양의 유전 정보를 이용하는 시스템 생물학자, 유전체를 연구하는 생명공학자들이 다름 아닌 ‘데이터 사이언티스트’ 의 대표적인 예라고 할 수 있습니다.

하버드 비즈니스 리뷰 (Harvard Business Review)의 최근 아티클, “데이터 사이언티스트: 21세기의 가장 섹시한 직업 (Data Scientist: The Sexist Job of the 21st Century)” 는 기업 경영에서 데이터 사이언티스트들이 어떠한 의미를 지니는지, 어떠한 사람들인지에 대해서 진지하게 고찰을 하고 있습니다. 생명공학이나, 헬스케어와 관련된 내용이 직접적으로 다루어지고 있지는 않지만, 생물학 전공자들에게도, 특히 IT와 BT의 융합에 관심이 있는 분들에게 시사하는 바가 큰 것 같습니다.

아래의 내용은 아티클, “데이터 사이언티스트: 21세기의 가장 섹시한 직업 (Data Scientist: The Sexist Job of the 21st Century)” 의 요점들을 제가 번역, 정리한 것입니다. 많은 의역 오역이 있을 수 있습니다. 더 관심이 있으신 분은 원문을 참고하시기 바랍니다.

 Untitled

  • 데이터 사이언티스트 (data scientist)의 위력은 링크드인 (LinkedIn)의 사례에서 찾아볼 수 있다. 비즈니스 네트워킹 사이트인 링크드인은 초창기에 사용자들이 경영진이 원하는만큼 다른 유저들과의 인맥을 활발하게 맺지 않는 것이 문제였다. 사용자 경험에 중요한 무엇인가 빠져 있었다.
  • 링크드인 관계자의 말을 빌리자면, “사용자들은 사람들로 가득찬 컨퍼런스 리셉션에 도착했는데, 그 안에 자신이 아는 사람이 아무도 없는 상황과 비슷했다. 그래서 구석에 홀로 서서 술을 홀짝거리다가, 얼른 자리를 뜨는 상황이었다” 
  • 하지만, 스탠퍼드 물리학 박사 출신의 골드만(Goldman)이 상황을 뒤바꿔놓았다. 그가 링크드인 페이지에 “당신이 알 수도 있는 사람들 (People You May Know)”라는 광고를 추가한 것이었다 (처음에 이에 대해서 많은 경영진이 대놓고 반대했지만, 링크드인의 공동 설립자인 Reid Hoffman이 그를 전폭적으로 지원하면서 가능해졌다.)
  • 이 서비스는 사람들이 서로 알고는 있지만, 링크드인 서비스에서 연결되어 있지 않은 사람들을 보여주기 위한 것이었다. 그 원리는 ‘삼각관계(Triangle Closing)’ 원리를 이용한 것이었다: 만약 당신이 Larry 와 Sue를 알고 있다면, 아마도 Larry 와 Sue가 서로 알고 있을 가능성이 높을 것이다.
  • “당신이 알 수도 있는 사람들 (People You May Know)” 서비스가 나온지 채 며칠이 되지도 않아서 놀라운 일들이 벌어지기 시작했다. 클릭율(click-through rate)이 폭발적으로 증가했던 것이다. 링크드인의 경영진은 이제서야 그 위력을 알아보고 (임시였던) 이 서비스를 정식으로 제공하기 시작했다. 이 단 하나의 서비스가 수백만의 새로운 페이지 뷰 (page view)를 창출해내었다. 이 단 하나의 기능 때문에, 링크드인은 더 높은 단계로 단숨에 도약할 수 있었다.

shutterstock_116176168

새로운 바람 (A New Breed)

  • 이 골드만은 “데이터 사이언티스트(Data Scientist)”의 좋은 예라고 할 수 있다. 이 직업은 빅 데이터(Big Data)의 세계에서 의미 있는 발견을 할 수 있도록 훈련되고, 호기심을 가진 전문직이라고 할 수 있다. 이런 이름의 직업이 세상에 나온지는 오래 되지 않았지만, 이미 수천명의 데이터 사이언티스트들이 스타트업과 기존 기업에서 일을 하고 있다.
  • 그들의 갑작스런 등장은, 현재 기업들이 예전에는 겪어보지 못한 다양하고도 방대한 데이터와 씨름해야 하는 것에서 기인한다. 만약 당신의 Petabyte 수준의 데이터를 가지고 있거나, 단순이 엑셀파일 형태로 (other than rows and columns of numbers) 정리할 수 없는 데이터를 갖고 있다면, 바로 ‘빅 데이터’의 기회를 갖고 있는 것이다.
  • 빅 데이터에 관한 기술 (Hadoop, 오픈소스 툴, 클라우드 컴퓨팅 등) 은 많은 부분 발전을 했지만, 이러한 부분에 대한 기술과 마인드를 가지고 있는 사람들은 여전히 부족하다. 실제로 데이터 사이언티스트의 부족은 많은 분야에서 현재 고민거리가 되고 있다.

 

대체 이들은 누구인가? (Who Are These People?)

  •  데이터 사이언티스트를 고용하는 것이 중요하다면, 경영자들에게는 ‘이런 능력자들은 어떻게 알아볼 것인가’, ‘어떻게 회사로 끌어들일 것인가’, ‘그들을 어떻게 생산적으로 만들 것인가’가 고민일 것이다. 또한 그들을 어느 부서에 배치해야 할 것인지, 그들이 어떻게 가치를 더할 수 있을 것인지 (value add), 그들의 성과를 어떻게 측정할 것인지도 문제다.
  • 가장 먼저 할 일은 그들이 비즈니스에서 하는 역할이 무엇인지를 이해하고, ‘그들에게는 어떤 기술들이 필요한가?’를 질문하는 것이다.
  • 기본적으로 데이터 사이언티스트들은 데이터의 홍수 속에서 헤엄치는 사람들이다. 복잡한 대량의 데이터를 구조화 해서, 분석이 가능하게 만든다. 데이터 소스를 찾고, 때로는 불완전한 데이터를 서로 연결해서, 깔끔한 결과를 내어 놓는다.
  • 이렇게 인사이트를 발견한 후에는 그들은 ‘커뮤니케이션’을 통해 비즈니스가 어떠한 방향으로 나아갈 것인지를 제시한다. 많은 경우, 그들은 결과/정보를 시각적으로 보여주거나 (visualize), 혹은 깔끔한 패턴을 찾기도 한다.
  • 그럼 어떤 사람들이 이 모든 것을 할 수 있을까? 성공적인 데이터 사이언티스트들에게는 어떤 능력이 필요한가? 그들은 데이터 해커, 애널리스트, 커뮤니케이터, trusted adivser 등의 조합이라고 할 수 있을 것이다 (그리고 그 조합은 매우 드물다).
  • 현재 데이터 사이언티스트의 가장 기본적인 능력은 코드를 쓰는 것이다 (to write code). 그리고 앞으로는 데이터를 이해관계자(stake holders)들이 모두 이해할 수 있도록 스토리텔링을 할 수 있는 능력-시각적으로나 언어를 통해서나, 혹은 둘 모두-이 중요할 것이다.
  • 하지만, 우리들은 강력한 호기심(intensive curiosity)이야말로 데이터 사이언티스트의 중요한 특징이라고 생각한다. 문제의 이면을 파고들고, 질문들을 찾고, 검증가능한 가설을 세우는 능력들 말이다. 이것들은 종종 연상적인 사고능력 (associative thinking)을 동반하기도 한다.
  •  이러한 것들을 보자면 왜 이들을 ‘사이언티스트(과학자)’로 부르는지 알 수 있을 것이다. 과학자들은 (예를 들어, 실험 물리학자) 기기를 디자인하고, 데이터를 모으고, 여러 가지 실험을 수행하고, 이러한 결과에 대해서 의사소통해야 한다.
  • 그래서 종종, 좋은 데이터 사이언티스트는 물리학, 사회과학, 생태학이나 시스템 생물학자들 중에서 찾을 수 있다. 실리콘밸리에 있는 Intuit 의 데이터 사이언스 팀의 수장인 George Roumeliotis는 천체 물리학 박사이며, 많은 데이터 사이언티스트들이 컴퓨터공학, 수학, 경제학 등의 백그라운드를 가지고 있다.
  • 전통적인 ‘데이터 매니져’와 ‘데이터 사이언티스트’는 구분을 해야 한다. 데이터 매니지먼트의 전문가는 구조화 되어 있는 (structured form) 데이터를 만들어내고 다루는 것에는 능통하겠지만, 구조화되지 않은 (unstructured) 데이터를 구조화시키고, 이를 분석하는 것에는 익숙하지 않을 것이다.
  •  George Roumeliotis는 데이터 사이언티스트를 통계적 지식, 분석력 등에 근거해서 선발하지 않는다. 가장 기본적인 조건은 자바 등의 주요 프로그래밍 언어로 프로토타입을 개발할 수 있는가 하는 것이다. 또한 적절한 기술 (수학, 통계, 확률, 컴퓨터공학 등에 대한 지식)사고방식 (habits of mind)를 중시한다. 뿐만 아니라, 비즈니스 이슈에 대한 감각이 있고, 고객들에 대한 공감능력이 있는 사람을 중시한다.

 

0423_data_630x420

 

그들은 어떤 곳에서 일하고 싶어할까? (Why Would a Data Scientist Want to Work Here?) 

  • 그들은 주어진 문제가 얼마나 재미있는 것인가를 따진다. 그래서 그들을 고용하기 위해서는 해당 문제가 가지는 잠재력과 그 문제를 풀었을 경우에 어떠한 돌파구 (breakthrough)가 있을 것인지에 대해서 멋진 그림을 보여주는 것이 좋다.
  • 물론 보수도 한 요인이 된다. 최근 스타트업에서 일하는 데이터 사이언티스트는 큰 스탁 옵션을 받기도 한다. 보상에 관한 것은 결국 그들이 존중받는 정도를 나타내기도 한다.
  • 하지만, 우리가 조사한 바로는 가장 중요한 것은 그들이 결정적인 자리(?) (‘on the bridge’)에 있고 싶어 한다. 데이터 사이언티스트는 계속 발전되는 상황 (developing situation)에 있고 싶어 하며, 그 것에서 주어지는 선택권들을 실시간으로 알고 싶어 한다 (Data scientists want to be in the thick of a developing situation, with real-time awareness of the evolving set of choices it presents.)
  • 그들을 컨설턴트로 고용하는 것은 좋은 생각이 아니다. 현재 엑센추어, 딜로이트, IBM 등이 빅 데이터에 대한 컨설팅을 제공하고 있지만, 데이터 사이언티스트들은 의사결정권자에게 조언을 하는 것에 만족하지 않고, 그들 스스로 무엇인가를 만들어가고 싶어한다.

 

그들을 어떻게 동기부여 할 것인가? (Care and Feeding)

  • 그들은 속박되어서 일하는 것을 좋아하지 않는다. 그들에게는 실험의 자유와 여러 가능성을 탐색할 수 있는 여지를 주는 것이 좋다. 고위 경영진의 감시를 받는 것보다는, 상품과 서비스를 담당하고 있는 실무자 (executive in charge of products and services)와의 관계까 중요하다. 그들의 가치를 극대화 할 수 있는 일은 고위 경영진에게 보고서나 PT를 할 때가 아니라, 고객이 직면한 상품과 프로세스를 직접 혁신하는 것이다.
  • LinkedIn, Intuit, GE, Google, Zynga, Netflix, Kaplan 등 많은 기업에서 데이터 사이언티스트들을 활용하고 있다. 하지만, 빠르게 변화하는 고도의 기술(tool kit state-of-the-art) 을 가진 데이터 사이언티스트들은 일반 관리자 동료들(general managment colleagues)과 시간을 보내는 것보다는 같은 분야의 전문가들끼리 교류하면서, 그 기술들을 더욱 갈고 닦을 수 있게 해줘야 한다.
  • 더 높은 기준을 제시할 때, 데이터 사이언티스트들은 오히려 더욱 동기부여가 되기도 한다. 경영진이 단순한 보고서 ‘이상’의 것을 원한다면, 데이터 사이언티스트들은 그들의 분석을 더욱 발전시키기 위해 최선을 다할 것이다.

 

미래의 핫한 직업 (The Hot Job of the Decade)

  •  구글의 최고 경제학자 (Chief economist), “다음 10년간 가장 섹시한 직업은 통계학 전문가 (statisticians)일 것이다. 이것을 농담으로 받아들이는 사람도 있겠지만, 1990년대에 가장 섹시한 직업이 컴퓨터 공학자일줄 누가 알았겠는가?”
  • “섹시” 라는 말의 뜻이 수요는 많지만 구하기는 힘든 (rare qualities) 것을 의미한다면, 데이터 사이언티스트는 이미 그러하다. 그들은 구하기도 힘들고, 고용하기도 비싸다. 특히, 과학 백그라운드, 컴퓨터에 관한 스킬, 분석 능력의 조합을 모두 갖춘 사람은 매우 드물다.
  • 1980년대와 1990년대에 수학, 물리 전공자들이 월스트리트의 ‘퀀트’ 전문가들로 각광을 받자, 대학에서 이러한 금융 공학 관련 학과를 만들고 2세대 전문가들을 쏟아냈듯이, 미래에는 데이터 사이언스 분야에서도 이러한 패턴을 밟을 것이다. 그 때가 되면 데이터 사이언티스트는 보다 찾기 쉽고, 고용하기도 저렴할 것이다.
  • 하지만 중요한 질문은 기업들이 이 2세대 데이터 사이언티스트가 쏟아져 나올 때까지 기다리는 것이 과연 현명한가 하는 것이다.  빅 데이터는 이미 대세가 되었다. 이러한 변화의 시작에서 발을 빼고 있는 것은, 경쟁자들과의 경쟁에서 돌이킬 수 없는 이점을 빼앗기는 결과가 될 수도 있다. 빅 데이터가 거스를 수 없는 물결이라고 생각한다면, 그 물결에 올라탈 수 있는 서퍼가 필요할 것이다.

 

shutterstock_bigdata

 

(이미지 출처: http://tywkiwdbi.blogspot.kr/2012/04/physics-classroom-blackboard.html 등)

Like this Article? Share it!

About The Author

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』 『의료 인공지능』 『헬스케어 이노베이션』 등을 집필하였습니다.

Leave A Response