댓글
데이터 정제소,
사회적 가치를 깨우다
2025-2
JASON SAUL · KRISS DEIGLMEIER
Summary. 많은 이들이 소셜섹터에서 데이터가 부족한 원인을 역량, 기술, 자금의 한계에서 찾는다. 하지만 그보다 더 근본적인 문제가 있는 것은 아닐까?
2021년, 미국 기업은 2조 7,700억 달러에 달하는 사상 최대의 수익을 기록했다. 이는 2000년 7,860억 달러 대비 크게 증가한 수치다. 반면 사회적 진보의 양상은 대조적인 흐름을 보였다. 2000년부터 2021년까지 유엔 SDGs 이행 수준은 미미하게 증가하는 데 그쳤고, 20년간의 누적 진척률은 10%에도 미치지 못했다.
기업 부문과 소셜섹터 간의 이처럼 극명한 격차는 무엇으로 설명할 수 있을까? 그 원인 중 하나로 데이터의 역할을 들 수 있다. 예를 들어 기업들은 데이터 기반 의사결정 조직문화를 바탕으로 큰 이점을 누리고 있다. 일부에서는 이러한 차이를 '데이터 격차'로 부르며, 이익 극대화를 위한 데이터 활용과 사회문제 해결을 위한 데이터 활용 간의 간극이 점점 벌어지는 점을 지적한다.


IBM이 2022년에 실시한 조사에 따르면, 기업의 77%가 이미 AI를 활용하고 있거나 자사 비즈니스에 AI 적용 방안을 모색 중인 것으로 나타났다. 반면 2017년 한 보고서에서는 소셜섹터 조직 중 AI를 활용하는 곳이 5%에 불과했고, 예측 분석이나 처방적 분석 등 고차원 데이터 활용 비율도 28%에 그쳤다. 공공영역 역시 크게 다르지 않았다. 전 세계의 정부 기관들은 공공 서비스를 보다 효과적이고 효율적으로 제공하기 위해 데이터 활용 역량을 강화해야 하는 중대한 과제에 직면해 있다. 실제로 2020년 조사에서 공공영역 응답자의 89%는 급격히 증가하는 데이터에 대한 대비가 부족하다고 밝혔다.
우리는 이미 기술 발전의 속도와 기하급수적인 데이터 증가가 일과 삶의 방식을 바꿔 놓은, 전환의 시대를 살고 있다. 이런 흐름 속에서 기업 부문과 소셜섹터 간 데이터 격차는 사회 전반의 지속적인 발전에 중대한 영향을 미칠 수 있다. IBM이 2017년에 비영리 조직을 대상으로 실시한 동일한 설문조사에서는 고급 분석 역량을 갖춘 비영리 조직의 78%가 미션 수행에 있어 더 높은 성과를 거뒀다고 응답했다.
그렇다면 데이터와 사회적 진보 사이에 이처럼 뚜렷한 연관성이 확인되었음에도, 왜 더 많은 비영리 조직과 소셜섹터의 조직들은 데이터를 적극적으로 활용하지 못하는 것일까?
데이터 활용이 저조한 원인을 밝히기 위한 초기 연구는 주로 조직 차원에 초점을 맞춰 진행되었다. 이러한 연구는 투자 자본의 부족, 내부 역량의 부족, 조직 문화와 기술 혁신의 부족, 데이터 과학자에 대한 접근성 부족 등 데이터 활용을 가로막는 실질적인 장애 요인들을 밝혀냈다. IBM 연구를 살펴보면, 예산, 기술, 인재의 부족과 같은 장벽은 모든 부문에서 공통적으로 나타나지만, 비영리 영역 특유의 구조로 인해 그 영향은 더욱 두드러진다. 민간 부문에서는 시장 경쟁 압력에 따라 데이터 투자가 적극적으로 이루어지는 반면, 비영리 조직은 자금 지원이 주로 프로그램 활동에 한정되어, 내부 역량 강화와 같은 운영 기반 투자에 자금이 조달되지 않는다.
이러한 장벽을 극복하기 위한 시도도 이어져왔다. 우리는 '데이터 포 굿Data for Good' 또는 'AI 포 굿AI for Good'을 내건 115개의 다양한 이니셔티브를 발견했다. 챗GPT의 등장 이후 새롭게 시작된 이니셔티브를 포함하면 그 수는 훨씬 더 많을 것으로 보인다. 비영리 조직들은 이제 대기업과 중소기업의 사회공헌 활동을 통해 다양한 소프트웨어를 무료로 사용할 수 있다. 테크숩TechSoup과 같은 중개 기관은 수백 종의 제품을 무상 또는 저비용으로 제공하고 있다. 또한 데이터카인드DataKind나 데이터닷오알지Data.org와 같은 조직은 비영리 단체들이 데이터 전문가와 연결될 수 있도록 지원하고 있다. 그러나 이러한 노력은 비영리 조직이 직면한 도전의 일부만을 다루기 때문에 충분하다고 보기 어렵다.
우리는 이 문제 이면에 구조적인 원인이 있다고 본다. 비영리 실무자와 정책 입안자들이 예산과 역량, 조직 문화적 수용성까지 모두 갖추고 있다 하더라도, 그들이 필요로 하는 형태의 데이터가 존재하느냐는 질문에는 분명히 '아니오'라고 답할 수 있다. 비영리 영역은 아직 민간 부문과 같은 수준으로 데이터를 생성, 분석, 활용할 수 있는 데이터 생태계를 갖추고 있지 못하다. 그렇다보니 실제 활용 가능한 데이터 자체가 거의 없는 것이 현실이다.
데이터 생태계의 구조 분석
데이터 생태계는 금융, 헬스케어, 소매업, 엔터테인먼트, 선거, 심지어 스포츠에 이르기까지 다양한 분야에 존재한다. 각 분야에서는 성과 데이터가 수집, 표준화, 통합, 벤치마킹 되어 예측 모델 개발에 활용된다. 예를 들어 음악 스트리밍 서비스 판도라Pandora는 이용자가 어떤 곡을 선택하는지를 추적해 성과 데이터를 수집하고 있으며, 타겟Target은 소비자가 어떤 물품을 구매하는지를 추적한다. 23앤드미23andme는 DNA와 사용자가 입력한 데이터를 활용해 연구자들이 유전적 특성과 질병 간의 연관성을 분석할 수 있도록 하며, 블룸버그Bloomberg는 기업 실적에 관한 금융 성과 데이터를 추적 및 관리한다. 이러한 데이터 활용은 산업 전반에서 표준적으로 이루어지고 있다.
논의를 이어가기 전, 규제 없이 운영되어 온 상업적 데이터 생태계가 소외된 집단에 불이익과 피해를 초래해왔다는 점을 명확히 인식할 필요가 있다. 대규모의 개인화 정보에 대한 접근에는 엄격한 규제와 통제가 반드시 따라야 하고, 데이터 윤리는 특히 공공 영역과 비영리 영역에서 민감하게 다뤄져야 한다. 이들 영역에서는 신뢰가 곧 조직의 존립을 결정하기 때문이다. 상업적 데이터 생태계에 윤리적으로 비판받을 지점이 존재하는 것은 사실이지만, 그 핵심 메커니즘 중 일부는 긍정적인 사회환경적 성과를 창출하는 데 충분히 활용할 가치가 있다.
이제 상업적 데이터 생태계의 작동 원리를 살펴보자. 데이터 생태계가 점진적으로 진화해 온 가운데, 데이터 처리 프로세스의 발전은 네 단계로 구분할 수 있다.
1. 생산 단계 데이터Production-level data
데이터 생태계의 첫 번째 단계는 1차 데이터, 즉 제품이나 서비스의 사용·경험·참여를 통해 생성되는 원 데이터를 생산하는 과정이다. 이는 개별 수준에서 발생하는 거래 기반 데이터로, 클릭률, 판매량, 슈퍼마켓 스캐너 데이터, 재고 수준, 참여율, 구독률, 입장률, 반품률 등이 해당되며, 여기에 과거 구매 이력, 고객 충성도, 이용 빈도 등 행동 기반 데이터도 포함된다. 이러한 데이터의 대부분은 소규모 사업체, 소매점, 소프트웨어 애플리케이션 내부에 축적된다.
2. 플랫폼 단계 데이터Platform-level data
데이터 생태계의 두 번째 단계는 대규모 데이터 수집이 이루어지는 플랫폼 중심 단계로, 주로 대형 플랫폼 기업이 주도한다. 과거에는 대형 은행이나 신용카드 회사가 대규모 소비자층의 거래 데이터를 추적해 왔다. 그러나 인터넷과 클라우드 컴퓨팅의 등장으로 오늘날 데이터 수집의 양상은 크게 달라졌다. 넷플릭스, 닐슨, 구글, 애플, 아마존, 메타, 링크드인, 질로우, 스포티파이, 틱톡과 같은 기업들은 동일한 사용자로부터, 장기간에 걸쳐, 반복적으로 행동 데이터를 수집하며, 고도로 정형화된 방대한 양의 종단 데이터를 축적하고 있다.
3. 데이터 정제 및 집계 단계Refinery and aggregation
이 단계에서 활동하는 데이터 정제소refinery(원 데이터를 구조화 및 표준화하는 기관), 집계자aggregator(데이터를 모아 통합하는 주체), 또는 중개업체broker(데이터를 거래 및 유통하는 주체)는 대부분 디지털 기반의 사업체로, 데이터 판매를 핵심 비즈니스 모델로 한다. 이들은 플랫폼 기업에서 수집한 고도로 정형화된 사용자 데이터를 집계하고 정제한 뒤, 연구자, 마케터, 정치 캠페인 조직, 신용평가 기관 등이 활용할 수 있도록 다양한 방식으로 결합, 가공한다. 엑스페리언Experian, 에퀴팩스Equifax, 트랜스유니온TransUnion과 같은 3대 신용평가 기관은 신용카드 발급사, 주택담보대출 회사, 학자금 대출 기관 등 다양한 출처로부터 수집한 개인 데이터를 분석 및 정제해 신용 점수와 같은 메타데이터를 만든다. 민간 기업은 이러한 고도로 개인화된 데이터를 다루는 과정에서 윤리적 문제를 야기해왔다. 반면 사회 문제나 환경을 다루는 단체는 데이터를 책임 있게 다룰 윤리적 의무를 지닐 뿐 아니라, 이러한 기준을 준수하고 실천할 가능성이 높다.
4. 의사결정 지원Decision support
데이터 생태계의 최상위 단계는 평가기관, 추천 엔진, 예측 도구, 매칭 알고리즘, 인공지능 등이 활용되는 영역이다. 이 단계에 있는 기업들은 데이터를 현실 세계의 다양한 시나리오에 적용해, 구체적인 질문에 답하는 도구를 제공한다. 간단한 예로, 사용자의 과거 행동 데이터를 기반으로 맞춤형 추천을 제공하거나 미래 결과를 예측하는 시스템이 여기에 해당한다. 최근 주목을 받고 있는 오픈AI의 챗GPT의 경우 기존의 한계를 넘어선 의사결정 지원 기술의 대표 사례로 평가된다. 이러한 의사결정 지원 시스템은 방대한 비정형 데이터를 통합해 실행 가능한 정보로 전환함으로써, 데이터 생태계에서 핵심적인 역할을 수행한다.

성숙한 데이터 생태계는 각 데이터 계층이 하위 단계에 기반해 유기적으로 연결되며, 전체적으로 하나의 '공급망'처럼 작동하기 때문에 체계적인 운영이 가능하다. 각 단계는 서로 다른 경제적 목적을 수행하고, 그 과정에서 명확한 부가가치를 창출한다. 특히 데이터가 고도로 구조화되어 있고 상호호환성이 뛰어나 집계와 통합이 용이하다는 점은 데이터 생태계가 안정적으로 작동하는 핵심 기반이 된다.
데이터 격차 분석: 무엇이 문제인가?
소셜섹터에서 데이터는 근본적으로 상이한 역할을 한다. 데이터 격차의 원인을 더 깊이 이해하기 위해, 우리는 데이터 과학자, 경제학자, 비영리 영역의 실무자와 자선가, 평가 전문가, 정책 입안자를 인터뷰했다. 이 연구에서 드러난 사실은 소셜임팩트 데이터 생태계가 혁신이나 사회적 성과 창출의 기회보다는 주로 규정 준수 요건을 중심으로 발전해 왔다는 점이다. 우리는 지금의 소셜임팩트 데이터 환경을 형성한 몇 가지 핵심 요인을 파악했다.
소셜섹터에는 널리 사용되거나 표준으로 자리 잡은 데이터 플랫폼이 거의 존재하지 않는다. 많은 비영리 조직이 자체 개발한 소프트웨어나 소규모 맞춤형 플랫폼을 개별적으로 활용하고 있어, 대형 상업용 플랫폼 도입으로 발생할 수 있는 위험을 회피하는 동시에 통합 기능이나 부가가치를 충분히 누리지 못한다. 대부분의 정부 기관 역시 외부 개발업체에 맞춤형 소프트웨어 개발을 의뢰하고 있어, 기관별 데이터 수집 방식이 제각기다. 보조금 관리 시스템과 사례 관리용 소프트웨어의 경우 외부 연동이 어려운 폐쇄형 아키텍처를 채택하고 있어, 데이터 공유에 큰 제약이 따른다. 이러한 구조적 단절이 누적되면서 소셜섹터의 데이터는 매우 파편화되고 있으며, 데이터의 이동성과 상호운용성도 현저히 낮아지고 있다.
소셜임팩트 데이터는 아직 표준화된 구조를 갖추지 못했다. 사회 프로그램이 개인에게 미치는 영향을 측정하는 성과 데이터 역시 연방 규정, 정보 중개기관, 임팩트 관련 단체 어디에서도 표준화되지 않았다. 임팩트 데이터의 형식과 내용은 정부 기관, 재단, 기부자가 각각 요구하는 보조금 보고 요건에 따라 결정된다. 이러한 경향은 주정부와 연방정부 차원에서도 동일하게 나타난다. 각 정부 기관은 주로 산출 지표에 기반한 자체 성과 목표를 설정하고, 해당 데이터를 내부 예산 및 기획 담당 부서에 보고하는 방식으로 성과를 관리한다.
단계에 머물러 있다. 데이터가 사일로화Siloed 되어 있고, 구조화된 임팩트 데이터도 부족하다 보니 신기술 도입이나 예측 분석 역량 개발에 대한 투자도 활발히 이루어지지 못하고 있다. 그 결과 추천 엔진이나 예측 알고리즘 같은 의사결정 지원 도구 역시 소셜섹터에서 거의 활용되지 않고 있다. 뉴욕대학교 거버넌스 연구소The Governance Laboratory의 공동 창립자이자 최고 연구개발 책임자인 스테판 베르휠스트Stefaan Verhulst는 다음과 같이 지적한다. "중요한 과제는 임팩트 데이터를 어떻게 체계적이고, 지속 가능하며, 책임감 있게 구축할 수 있느냐는 것입니다. 데이터 협업이나 파일럿, 일회성 프로젝트만으로는 확장될 수 없습니다. 소셜섹터에는 데이터를 직접 수집하거나 여러 출처의 데이터를 통합할 수 있는 새로운 유형의 전문 인력이 필요합니다. 그리고 이를 체계적으로 지원할 '데이터 관리 최고책임자chief data steward' 협회 같은 새로운 조직도 필요합니다."
펀딩 프로그램이 잘 운영된다고 해서 반드시 임팩트를 창출하는 것은 아니다. 민간 부문과 달리 소셜섹터에서는 긍정적인 성과를 나타내는 임팩트 데이터가 조직의 성장이나 더 큰 임팩트 창출에 필요한 직접적이고 즉각적인 재정적 보상으로 이어지지 않는다. 이러한 이유로 소셜섹터에서는 데이터의 가치가 충분히 인정받지 못하고 있다. 우리가 인터뷰한 한 주요 재단 관계자는 이렇게 강조했다. "데이터가 지원 대상을 더 정확히 타겟팅하고, 비용을 절감해, 더 많은 사람을 돕는 데 효과적이라는 점을 입증하더라도, 그에 상응하는 금전적 보상이 따르지 않는다면 영향력을 갖기 어렵습니다. 높은 임팩트 평가지표가 더 많은 수익으로 이어지고, 펀드레이징에도 긍정적인 영향을 미칠 때, 임팩트 데이터는 가치를 인정 받게 될 것입니다."
대규모의 데이터 정제소 플랫폼이 부재하다. 우리가 진행한 연구에 따르면, 데이터 격차를 초래한 가장 심각한 '균열'은 소셜섹터가 대규모 데이터 정제소를 갖추지 못한 데 기인한다. 그동안 소셜섹터의 데이터를 정제하려는 초기 시도들이 있었는데, 특별 목적 데이터 협력체, 근거 기반 데이터베이스, 성과 기반 실행 사례 통합 플랫폼, 비영리 재무 데이터베이스, 평가기관 등이 그 예다. 그러나 이러한 시도는 단편적으로 진행되었고, 재정적으로도 열악해 소셜섹터를 지속적으로 뒷받침하기에 충분치 않았다.
데이터 정제소의 핵심 기능은 데이터를 구조화하고, 분류하며, 표준화하는 데 있다. 이러한 분류 체계를 '택소노미taxonomy'라고 부른다. 이 택소노미는 왜 중요할까? 택소노미 없는 데이터는 마치 형태 없이 흩어지는 젤리처럼, 무질서한 정보 덩어리에 불과하기 때문이다.
데이터 격차 좁히기
소셜 임팩트 데이터 생태계를 구축하는 일은 하루아침에 이뤄질 수 없지만, 단계적으로 실행할 수 있는 노력이 있다. 이러한 과제는 '공급' 측면과 '수요' 측면으로 구분할 수 있다. 먼저 공급 측면에서는 더 나은 택소노미와 온톨로지ontology를 개발하고, 데이터 표준화 및 공유 데이터베이스를 구축하려는 노력이 필요하다. 수요 측면에서도 변화가 필요하다. 재정적 인센티브를 마련하고, 혁신을 위한 재원을 조성하며, 새로운 활용 사례를 검증하는 방식의 접근이 필요하다. 다음은 데이터 격차를 좁히기 위해 지금 바로 실행할 수 있는 세 가지 방안이다.
혁신
가장 우선적으로 필요한 일은 이 분야 전체가 구조화된 임팩트 데이터를 생성하기 위해 힘을 모으는 것이다. 현재도 많은 데이터가 존재하지만, 대부분은 행정적인 정보에 불과하며, 사회 프로그램의 설계, 실행, 성과에 관한 구조화된 데이터가 부족하다. 이 문제를 해결하려면 데이터를 정교하게 정제하고, 접근성을 높이기 위한 새로운 방식을 개발할 수 있는 기업가, 연구자, 기술 전문가의 참여가 필요하다. 혁신의 기회는 두 가지 측면에 있다. 첫째는 연구 보고서, 평가 자료, 보조금 보고서, 보조금 신청서, 프로그램 설명서 등 기존의 비구조화된 데이터를 구조화하는 것이고, 두 번째는 수혜자, 실무자, 자금 제공자로부터 처음부터 구조화된 데이터를 생성하는 방식을 개발하는 것이다.
구조화된 데이터를 활용한 혁신 사례 중 하나로 영국 법무부 산하의 사법 데이터 랩Justice Data Lab을 들 수 있다. 이 기관은 수감자 재범률을 낮추기 위해 활동하는 단체들이 정부가 보유한 재범률 관련 데이터를 활용해 프로그램 효과를 평가할 수 있도록 지원한다. 단체가 자체 결과 데이터를 연구소에 전달하면, 훈련된 평가팀이 해당 결과 변수를 프로그램에 참여하지 않은 대조군과 비교 분석한다. 이 과정을 통해 모든 사회적 개입에 대한 일종의 즉각적인 무작위 배정 평가가 이뤄지며, 사법 데이터 랩은 사회 서비스 제공기관을 위한 소규모 데이터 정제소 역할을 수행한다.
또 다른 사례는 임팩트 게놈 레지스트리Impact Genome Registry로, 이 글의 공동 저자인 제이슨 사울Jason Saul이 주도한 이니셔티브이다. 임팩트 레지스트리는 모든 비영리 조직이 자발적으로 임팩트 데이터를 중앙집중형 통합 플랫폼에 등록하고, 해당 데이터를 표준화해 독립적으로 검증받을 수 있게 설계되었다. 이 시스템은 자금 제공자가 지원에 따른 임팩트를 검증하고, 정책 입안자가 효과적인 사회적 개입을 설계하며, 비영리 조직이 성과를 비교 및 평가하는 데 활용되고 있다.
고부가가치 구조화 데이터셋을 개발한 다른 사례로는 USA 팩트USA Facts와 교육과학연구소 산하 성과 기반 실행 사례 통합 플랫폼What Works Clearinghouse이 있다. USA 팩트는 미국 정부의 모든 지출 데이터를 수집 및 구조화하고, 성과 기반 실행 사례 통합 플랫폼은 교육 개입의 효과를 분석한 평가 연구를 체계적으로 코드화한다.
인센티브
데이터는 수요가 있을 때 가치를 발휘한다. 기업 부문에서는 이윤을 추구하는 본질적 동기가 작동하면서, 기업들이 정제되고 실행 가능한 임팩트 데이터를 자연스럽게 활용하게 된다. 반면 소셜섹터에는 임팩트에 대한 재정적 보상 체계가 마련되어 있지 않다 보니 더 나은 데이터를 확보하더라도 수익으로 이어지지 않는다. 그러나 이러한 구조는 정책 입안자, 혁신가 그리고 영향력 있는 자금 제공자들의 노력으로 변화시킬 수 있다.
가장 직접적인 인센티브는 임팩트 성과에 따라 금전적 보상을 제공하는 것이다. 2004년, 안사리 엑스프라이즈Ansari XPRIZE가 2주 안에 두 차례 우주 비행이 가능한 재사용 가능 유인 우주선을 개발한 팀에게 1천만 달러의 상금을 수여했다. 당시로서는 역사상 가장 큰 규모의 상금이자, 최초의 대규모 성과 기반 보상pay for outcomes 인센티브 모델이었다. 그 이후로 여러 경연들이 상금과 성과를 연결하는 방식을 채택했다. 사회성과연계채권social impact bonds과 여러 혁신 금융 모델을 포함한 성과 기반 보상 방식은 모두 이와 같은 인센티브 구조에 뿌리를 두고 있다. 재정적 보상과 임팩트 사이의 연계성이 강화될수록, 데이터와 데이터 정제소에 대한 수요는 더 커질 수 밖에 없다.
이와 같은 원리는 학술 연구에도 그대로 적용된다. 여전히 학술 연구는 가장 방대한 '데이터'의 보고이지만, 출판되는 대부분의 논문은 택소노미를 적용하지 않은 채 비구조화된 형식으로 발행된다. 그 결과 개별 연구 결과를 코드화하고 통합해 데이터 정제소로 집계할 수 있는 여지가 줄어든다. 결과적으로 학계는 여전히 문헌 검토 과정에서 불리언 검색Boolean searches에 의존하고 있으며, PDF 파일을 모아놓은 수준의 근거 기반 문헌 자료집을 구축하는 데 머물러 있다. 정년 보장을 좌우하는 학계의 성과 평가 인센티브 체계를 바꾼다면, 데이터 정제소에 대한 수요도 함께 촉진될 수 있을 것이다.
투자
마지막으로 소셜섹터의 주요 자원 배분자인 연방정부 기관, 민간 자선단체, 기업은 임팩트에 대한 투자 방식을 전환해야 한다. 우선 조직이 미션을 수행하고 성과를 창출하는 데 필수적인 운영 역량의 중요성을 인식하고, 이를 뒷받침할 데이터 기반 역량에 투자해야 한다. 둘째, 연구개발, 혁신, 신기술 분야에 대한 대규모 자본 투입이 절실하다. 이는 제안에 그치지 않고, 공공과 민간 모두가 실질적인 자금 투자를 통해 적극적으로 행동에 나설 것을 촉구하는 메시지다. 1958년, 미국 정부는 군사 분야의 연구개발을 위해 국방고등연구계획국을 설립했다. 교육, 보건, 환경 분야에도 DARPA와 같은 조직을 설립할 수는 없을까? 셋째, 프로젝트 중심의 기존 자금 지원 방식에서 벗어나, 임팩트 데이터 정제소처럼 소셜섹터 전반의 역량을 강화하는 인프라 시스템에 장기적으로 투자해야 한다. 임팩트 데이터 정제소의 목표는 모든 조직이 미션 수행에 필요한 데이터에 공정하게 접근할 수 있도록 하는 것이다. 데이터, 데이터 활용 역량, 데이터 기반 인사이트는 예산이 풍부한 대규모 조직만이 접근할 수 있는 독점적 자원이 되어서는 안 된다.
데이터는 곧 힘이다. 데이터 격차를 해소하면 미션 중심 조직은 혁신하고, 자본에 접근하며, 고객과 수혜자의 요구에 효과적으로 대응할 수 있는 역량을 강화할 수 있다. 소셜임팩트 분야는 자원이 부족한 것이 아니라, 자원을 배분하는 방식에 문제가 있다는 지적이 많다(실제로 OECD 국가들의 사회 지출은 평균적으로 GDP의 20%에 달한다). 자원이 비효율적으로 배분되는 가장 큰 이유는 무엇이 효과적인지를 판단할 수 있는, 구조화된 임팩트 데이터 정제소와 같은 인프라가 부재하기 때문이다. 이로 인해 정책 입안자와 자금 제공자, 실무자들은 '무엇이 효과적인가'를 판단하는 데 있어 여전히 추측에 의존할 수밖에 없다. 민간 부문은 데이터를 활용해 실패 위험을 최소화함으로써 자본 투자에 대한 수익을 극대화해 왔다. 이제는 소셜섹터도 데이터 기반으로 움직여야 할 때다.
참고
1. Thomas Samuel Kuhn, The Structure of Scientific Revolutions, Chicago: University of Chicago Press, 1962.
2. Gordon Fletcher, The Keynesian Revolution and Its Critics: Issues of Theory and Policy for the Monetary Production Economy, London: Palgrave Macmillan UK, 1989.
> 원문 기사 보기
JASON SAUL
제이슨 사울은 시카고대학교 임팩트 사이언스 센터의 센터장이며, 임팩트 게놈 프로젝트Impact Genome Project의 설립자이자 CEO이다.
KRISS DEIGLMEIER
크리스 다이글마이어는 데이터 분석 소프트웨어 기업 스플렁크Splunk의 글로벌 임팩트 최고책임자이다. 스플렁크 합류 전, 타이즈 네트워크Tides Network의 CEO, 스탠퍼드 경영대학원 사회혁신센터의 센터장, 그리고 주마 벤처스Juma Ventures의 최고운영책임자를 역임했다.
댓글
사회혁신 일반 · 기술
데이터 정제소,
사회적 가치를 깨우다
2025-2
JASON SAUL · KRISS DEIGLMEIER
Summary. 많은 이들이 소셜섹터에서 데이터가 부족한 원인을 역량, 기술, 자금의 한계에서 찾는다. 하지만 그보다 더 근본적인 문제가 있는 것은 아닐까?
2021년, 미국 기업은 2조 7,700억 달러에 달하는 사상 최대의 수익을 기록했다. 이는 2000년 7,860억 달러 대비 크게 증가한 수치다. 반면 사회적 진보의 양상은 대조적인 흐름을 보였다. 2000년부터 2021년까지 유엔 SDGs 이행 수준은 미미하게 증가하는 데 그쳤고, 20년간의 누적 진척률은 10%에도 미치지 못했다.
기업 부문과 소셜섹터 간의 이처럼 극명한 격차는 무엇으로 설명할 수 있을까? 그 원인 중 하나로 데이터의 역할을 들 수 있다. 예를 들어 기업들은 데이터 기반 의사결정 조직문화를 바탕으로 큰 이점을 누리고 있다. 일부에서는 이러한 차이를 '데이터 격차'로 부르며, 이익 극대화를 위한 데이터 활용과 사회문제 해결을 위한 데이터 활용 간의 간극이 점점 벌어지는 점을 지적한다.
IBM이 2022년에 실시한 조사에 따르면, 기업의 77%가 이미 AI를 활용하고 있거나 자사 비즈니스에 AI 적용 방안을 모색 중인 것으로 나타났다. 반면 2017년 한 보고서에서는 소셜섹터 조직 중 AI를 활용하는 곳이 5%에 불과했고, 예측 분석이나 처방적 분석 등 고차원 데이터 활용 비율도 28%에 그쳤다. 공공영역 역시 크게 다르지 않았다. 전 세계의 정부 기관들은 공공 서비스를 보다 효과적이고 효율적으로 제공하기 위해 데이터 활용 역량을 강화해야 하는 중대한 과제에 직면해 있다. 실제로 2020년 조사에서 공공영역 응답자의 89%는 급격히 증가하는 데이터에 대한 대비가 부족하다고 밝혔다.
우리는 이미 기술 발전의 속도와 기하급수적인 데이터 증가가 일과 삶의 방식을 바꿔 놓은, 전환의 시대를 살고 있다. 이런 흐름 속에서 기업 부문과 소셜섹터 간 데이터 격차는 사회 전반의 지속적인 발전에 중대한 영향을 미칠 수 있다. IBM이 2017년에 비영리 조직을 대상으로 실시한 동일한 설문조사에서는 고급 분석 역량을 갖춘 비영리 조직의 78%가 미션 수행에 있어 더 높은 성과를 거뒀다고 응답했다.
그렇다면 데이터와 사회적 진보 사이에 이처럼 뚜렷한 연관성이 확인되었음에도, 왜 더 많은 비영리 조직과 소셜섹터의 조직들은 데이터를 적극적으로 활용하지 못하는 것일까?
데이터 활용이 저조한 원인을 밝히기 위한 초기 연구는 주로 조직 차원에 초점을 맞춰 진행되었다. 이러한 연구는 투자 자본의 부족, 내부 역량의 부족, 조직 문화와 기술 혁신의 부족, 데이터 과학자에 대한 접근성 부족 등 데이터 활용을 가로막는 실질적인 장애 요인들을 밝혀냈다. IBM 연구를 살펴보면, 예산, 기술, 인재의 부족과 같은 장벽은 모든 부문에서 공통적으로 나타나지만, 비영리 영역 특유의 구조로 인해 그 영향은 더욱 두드러진다. 민간 부문에서는 시장 경쟁 압력에 따라 데이터 투자가 적극적으로 이루어지는 반면, 비영리 조직은 자금 지원이 주로 프로그램 활동에 한정되어, 내부 역량 강화와 같은 운영 기반 투자에 자금이 조달되지 않는다.
이러한 장벽을 극복하기 위한 시도도 이어져왔다. 우리는 '데이터 포 굿Data for Good' 또는 'AI 포 굿AI for Good'을 내건 115개의 다양한 이니셔티브를 발견했다. 챗GPT의 등장 이후 새롭게 시작된 이니셔티브를 포함하면 그 수는 훨씬 더 많을 것으로 보인다. 비영리 조직들은 이제 대기업과 중소기업의 사회공헌 활동을 통해 다양한 소프트웨어를 무료로 사용할 수 있다. 테크숩TechSoup과 같은 중개 기관은 수백 종의 제품을 무상 또는 저비용으로 제공하고 있다. 또한 데이터카인드DataKind나 데이터닷오알지Data.org와 같은 조직은 비영리 단체들이 데이터 전문가와 연결될 수 있도록 지원하고 있다. 그러나 이러한 노력은 비영리 조직이 직면한 도전의 일부만을 다루기 때문에 충분하다고 보기 어렵다.
우리는 이 문제 이면에 구조적인 원인이 있다고 본다. 비영리 실무자와 정책 입안자들이 예산과 역량, 조직 문화적 수용성까지 모두 갖추고 있다 하더라도, 그들이 필요로 하는 형태의 데이터가 존재하느냐는 질문에는 분명히 '아니오'라고 답할 수 있다. 비영리 영역은 아직 민간 부문과 같은 수준으로 데이터를 생성, 분석, 활용할 수 있는 데이터 생태계를 갖추고 있지 못하다. 그렇다보니 실제 활용 가능한 데이터 자체가 거의 없는 것이 현실이다.
데이터 생태계의 구조 분석
데이터 생태계는 금융, 헬스케어, 소매업, 엔터테인먼트, 선거, 심지어 스포츠에 이르기까지 다양한 분야에 존재한다. 각 분야에서는 성과 데이터가 수집, 표준화, 통합, 벤치마킹 되어 예측 모델 개발에 활용된다. 예를 들어 음악 스트리밍 서비스 판도라Pandora는 이용자가 어떤 곡을 선택하는지를 추적해 성과 데이터를 수집하고 있으며, 타겟Target은 소비자가 어떤 물품을 구매하는지를 추적한다. 23앤드미23andme는 DNA와 사용자가 입력한 데이터를 활용해 연구자들이 유전적 특성과 질병 간의 연관성을 분석할 수 있도록 하며, 블룸버그Bloomberg는 기업 실적에 관한 금융 성과 데이터를 추적 및 관리한다. 이러한 데이터 활용은 산업 전반에서 표준적으로 이루어지고 있다.
논의를 이어가기 전, 규제 없이 운영되어 온 상업적 데이터 생태계가 소외된 집단에 불이익과 피해를 초래해왔다는 점을 명확히 인식할 필요가 있다. 대규모의 개인화 정보에 대한 접근에는 엄격한 규제와 통제가 반드시 따라야 하고, 데이터 윤리는 특히 공공 영역과 비영리 영역에서 민감하게 다뤄져야 한다. 이들 영역에서는 신뢰가 곧 조직의 존립을 결정하기 때문이다. 상업적 데이터 생태계에 윤리적으로 비판받을 지점이 존재하는 것은 사실이지만, 그 핵심 메커니즘 중 일부는 긍정적인 사회환경적 성과를 창출하는 데 충분히 활용할 가치가 있다.
이제 상업적 데이터 생태계의 작동 원리를 살펴보자. 데이터 생태계가 점진적으로 진화해 온 가운데, 데이터 처리 프로세스의 발전은 네 단계로 구분할 수 있다.
1. 생산 단계 데이터Production-level data
데이터 생태계의 첫 번째 단계는 1차 데이터, 즉 제품이나 서비스의 사용·경험·참여를 통해 생성되는 원 데이터를 생산하는 과정이다. 이는 개별 수준에서 발생하는 거래 기반 데이터로, 클릭률, 판매량, 슈퍼마켓 스캐너 데이터, 재고 수준, 참여율, 구독률, 입장률, 반품률 등이 해당되며, 여기에 과거 구매 이력, 고객 충성도, 이용 빈도 등 행동 기반 데이터도 포함된다. 이러한 데이터의 대부분은 소규모 사업체, 소매점, 소프트웨어 애플리케이션 내부에 축적된다.
2. 플랫폼 단계 데이터Platform-level data
데이터 생태계의 두 번째 단계는 대규모 데이터 수집이 이루어지는 플랫폼 중심 단계로, 주로 대형 플랫폼 기업이 주도한다. 과거에는 대형 은행이나 신용카드 회사가 대규모 소비자층의 거래 데이터를 추적해 왔다. 그러나 인터넷과 클라우드 컴퓨팅의 등장으로 오늘날 데이터 수집의 양상은 크게 달라졌다. 넷플릭스, 닐슨, 구글, 애플, 아마존, 메타, 링크드인, 질로우, 스포티파이, 틱톡과 같은 기업들은 동일한 사용자로부터, 장기간에 걸쳐, 반복적으로 행동 데이터를 수집하며, 고도로 정형화된 방대한 양의 종단 데이터를 축적하고 있다.
3. 데이터 정제 및 집계 단계Refinery and aggregation
이 단계에서 활동하는 데이터 정제소refinery(원 데이터를 구조화 및 표준화하는 기관), 집계자aggregator(데이터를 모아 통합하는 주체), 또는 중개업체broker(데이터를 거래 및 유통하는 주체)는 대부분 디지털 기반의 사업체로, 데이터 판매를 핵심 비즈니스 모델로 한다. 이들은 플랫폼 기업에서 수집한 고도로 정형화된 사용자 데이터를 집계하고 정제한 뒤, 연구자, 마케터, 정치 캠페인 조직, 신용평가 기관 등이 활용할 수 있도록 다양한 방식으로 결합, 가공한다. 엑스페리언Experian, 에퀴팩스Equifax, 트랜스유니온TransUnion과 같은 3대 신용평가 기관은 신용카드 발급사, 주택담보대출 회사, 학자금 대출 기관 등 다양한 출처로부터 수집한 개인 데이터를 분석 및 정제해 신용 점수와 같은 메타데이터를 만든다. 민간 기업은 이러한 고도로 개인화된 데이터를 다루는 과정에서 윤리적 문제를 야기해왔다. 반면 사회 문제나 환경을 다루는 단체는 데이터를 책임 있게 다룰 윤리적 의무를 지닐 뿐 아니라, 이러한 기준을 준수하고 실천할 가능성이 높다.
4. 의사결정 지원Decision support
데이터 생태계의 최상위 단계는 평가기관, 추천 엔진, 예측 도구, 매칭 알고리즘, 인공지능 등이 활용되는 영역이다. 이 단계에 있는 기업들은 데이터를 현실 세계의 다양한 시나리오에 적용해, 구체적인 질문에 답하는 도구를 제공한다. 간단한 예로, 사용자의 과거 행동 데이터를 기반으로 맞춤형 추천을 제공하거나 미래 결과를 예측하는 시스템이 여기에 해당한다. 최근 주목을 받고 있는 오픈AI의 챗GPT의 경우 기존의 한계를 넘어선 의사결정 지원 기술의 대표 사례로 평가된다. 이러한 의사결정 지원 시스템은 방대한 비정형 데이터를 통합해 실행 가능한 정보로 전환함으로써, 데이터 생태계에서 핵심적인 역할을 수행한다.
성숙한 데이터 생태계는 각 데이터 계층이 하위 단계에 기반해 유기적으로 연결되며, 전체적으로 하나의 '공급망'처럼 작동하기 때문에 체계적인 운영이 가능하다. 각 단계는 서로 다른 경제적 목적을 수행하고, 그 과정에서 명확한 부가가치를 창출한다. 특히 데이터가 고도로 구조화되어 있고 상호호환성이 뛰어나 집계와 통합이 용이하다는 점은 데이터 생태계가 안정적으로 작동하는 핵심 기반이 된다.
데이터 격차 분석: 무엇이 문제인가?
소셜섹터에서 데이터는 근본적으로 상이한 역할을 한다. 데이터 격차의 원인을 더 깊이 이해하기 위해, 우리는 데이터 과학자, 경제학자, 비영리 영역의 실무자와 자선가, 평가 전문가, 정책 입안자를 인터뷰했다. 이 연구에서 드러난 사실은 소셜임팩트 데이터 생태계가 혁신이나 사회적 성과 창출의 기회보다는 주로 규정 준수 요건을 중심으로 발전해 왔다는 점이다. 우리는 지금의 소셜임팩트 데이터 환경을 형성한 몇 가지 핵심 요인을 파악했다.
소셜섹터에는 널리 사용되거나 표준으로 자리 잡은 데이터 플랫폼이 거의 존재하지 않는다. 많은 비영리 조직이 자체 개발한 소프트웨어나 소규모 맞춤형 플랫폼을 개별적으로 활용하고 있어, 대형 상업용 플랫폼 도입으로 발생할 수 있는 위험을 회피하는 동시에 통합 기능이나 부가가치를 충분히 누리지 못한다. 대부분의 정부 기관 역시 외부 개발업체에 맞춤형 소프트웨어 개발을 의뢰하고 있어, 기관별 데이터 수집 방식이 제각기다. 보조금 관리 시스템과 사례 관리용 소프트웨어의 경우 외부 연동이 어려운 폐쇄형 아키텍처를 채택하고 있어, 데이터 공유에 큰 제약이 따른다. 이러한 구조적 단절이 누적되면서 소셜섹터의 데이터는 매우 파편화되고 있으며, 데이터의 이동성과 상호운용성도 현저히 낮아지고 있다.
소셜임팩트 데이터는 아직 표준화된 구조를 갖추지 못했다. 사회 프로그램이 개인에게 미치는 영향을 측정하는 성과 데이터 역시 연방 규정, 정보 중개기관, 임팩트 관련 단체 어디에서도 표준화되지 않았다. 임팩트 데이터의 형식과 내용은 정부 기관, 재단, 기부자가 각각 요구하는 보조금 보고 요건에 따라 결정된다. 이러한 경향은 주정부와 연방정부 차원에서도 동일하게 나타난다. 각 정부 기관은 주로 산출 지표에 기반한 자체 성과 목표를 설정하고, 해당 데이터를 내부 예산 및 기획 담당 부서에 보고하는 방식으로 성과를 관리한다.
단계에 머물러 있다. 데이터가 사일로화Siloed 되어 있고, 구조화된 임팩트 데이터도 부족하다 보니 신기술 도입이나 예측 분석 역량 개발에 대한 투자도 활발히 이루어지지 못하고 있다. 그 결과 추천 엔진이나 예측 알고리즘 같은 의사결정 지원 도구 역시 소셜섹터에서 거의 활용되지 않고 있다. 뉴욕대학교 거버넌스 연구소The Governance Laboratory의 공동 창립자이자 최고 연구개발 책임자인 스테판 베르휠스트Stefaan Verhulst는 다음과 같이 지적한다. "중요한 과제는 임팩트 데이터를 어떻게 체계적이고, 지속 가능하며, 책임감 있게 구축할 수 있느냐는 것입니다. 데이터 협업이나 파일럿, 일회성 프로젝트만으로는 확장될 수 없습니다. 소셜섹터에는 데이터를 직접 수집하거나 여러 출처의 데이터를 통합할 수 있는 새로운 유형의 전문 인력이 필요합니다. 그리고 이를 체계적으로 지원할 '데이터 관리 최고책임자chief data steward' 협회 같은 새로운 조직도 필요합니다."
펀딩 프로그램이 잘 운영된다고 해서 반드시 임팩트를 창출하는 것은 아니다. 민간 부문과 달리 소셜섹터에서는 긍정적인 성과를 나타내는 임팩트 데이터가 조직의 성장이나 더 큰 임팩트 창출에 필요한 직접적이고 즉각적인 재정적 보상으로 이어지지 않는다. 이러한 이유로 소셜섹터에서는 데이터의 가치가 충분히 인정받지 못하고 있다. 우리가 인터뷰한 한 주요 재단 관계자는 이렇게 강조했다. "데이터가 지원 대상을 더 정확히 타겟팅하고, 비용을 절감해, 더 많은 사람을 돕는 데 효과적이라는 점을 입증하더라도, 그에 상응하는 금전적 보상이 따르지 않는다면 영향력을 갖기 어렵습니다. 높은 임팩트 평가지표가 더 많은 수익으로 이어지고, 펀드레이징에도 긍정적인 영향을 미칠 때, 임팩트 데이터는 가치를 인정 받게 될 것입니다."
대규모의 데이터 정제소 플랫폼이 부재하다. 우리가 진행한 연구에 따르면, 데이터 격차를 초래한 가장 심각한 '균열'은 소셜섹터가 대규모 데이터 정제소를 갖추지 못한 데 기인한다. 그동안 소셜섹터의 데이터를 정제하려는 초기 시도들이 있었는데, 특별 목적 데이터 협력체, 근거 기반 데이터베이스, 성과 기반 실행 사례 통합 플랫폼, 비영리 재무 데이터베이스, 평가기관 등이 그 예다. 그러나 이러한 시도는 단편적으로 진행되었고, 재정적으로도 열악해 소셜섹터를 지속적으로 뒷받침하기에 충분치 않았다.
데이터 정제소의 핵심 기능은 데이터를 구조화하고, 분류하며, 표준화하는 데 있다. 이러한 분류 체계를 '택소노미taxonomy'라고 부른다. 이 택소노미는 왜 중요할까? 택소노미 없는 데이터는 마치 형태 없이 흩어지는 젤리처럼, 무질서한 정보 덩어리에 불과하기 때문이다.
데이터 격차 좁히기
소셜 임팩트 데이터 생태계를 구축하는 일은 하루아침에 이뤄질 수 없지만, 단계적으로 실행할 수 있는 노력이 있다. 이러한 과제는 '공급' 측면과 '수요' 측면으로 구분할 수 있다. 먼저 공급 측면에서는 더 나은 택소노미와 온톨로지ontology를 개발하고, 데이터 표준화 및 공유 데이터베이스를 구축하려는 노력이 필요하다. 수요 측면에서도 변화가 필요하다. 재정적 인센티브를 마련하고, 혁신을 위한 재원을 조성하며, 새로운 활용 사례를 검증하는 방식의 접근이 필요하다. 다음은 데이터 격차를 좁히기 위해 지금 바로 실행할 수 있는 세 가지 방안이다.
혁신
가장 우선적으로 필요한 일은 이 분야 전체가 구조화된 임팩트 데이터를 생성하기 위해 힘을 모으는 것이다. 현재도 많은 데이터가 존재하지만, 대부분은 행정적인 정보에 불과하며, 사회 프로그램의 설계, 실행, 성과에 관한 구조화된 데이터가 부족하다. 이 문제를 해결하려면 데이터를 정교하게 정제하고, 접근성을 높이기 위한 새로운 방식을 개발할 수 있는 기업가, 연구자, 기술 전문가의 참여가 필요하다. 혁신의 기회는 두 가지 측면에 있다. 첫째는 연구 보고서, 평가 자료, 보조금 보고서, 보조금 신청서, 프로그램 설명서 등 기존의 비구조화된 데이터를 구조화하는 것이고, 두 번째는 수혜자, 실무자, 자금 제공자로부터 처음부터 구조화된 데이터를 생성하는 방식을 개발하는 것이다.
구조화된 데이터를 활용한 혁신 사례 중 하나로 영국 법무부 산하의 사법 데이터 랩Justice Data Lab을 들 수 있다. 이 기관은 수감자 재범률을 낮추기 위해 활동하는 단체들이 정부가 보유한 재범률 관련 데이터를 활용해 프로그램 효과를 평가할 수 있도록 지원한다. 단체가 자체 결과 데이터를 연구소에 전달하면, 훈련된 평가팀이 해당 결과 변수를 프로그램에 참여하지 않은 대조군과 비교 분석한다. 이 과정을 통해 모든 사회적 개입에 대한 일종의 즉각적인 무작위 배정 평가가 이뤄지며, 사법 데이터 랩은 사회 서비스 제공기관을 위한 소규모 데이터 정제소 역할을 수행한다.
또 다른 사례는 임팩트 게놈 레지스트리Impact Genome Registry로, 이 글의 공동 저자인 제이슨 사울Jason Saul이 주도한 이니셔티브이다. 임팩트 레지스트리는 모든 비영리 조직이 자발적으로 임팩트 데이터를 중앙집중형 통합 플랫폼에 등록하고, 해당 데이터를 표준화해 독립적으로 검증받을 수 있게 설계되었다. 이 시스템은 자금 제공자가 지원에 따른 임팩트를 검증하고, 정책 입안자가 효과적인 사회적 개입을 설계하며, 비영리 조직이 성과를 비교 및 평가하는 데 활용되고 있다.
고부가가치 구조화 데이터셋을 개발한 다른 사례로는 USA 팩트USA Facts와 교육과학연구소 산하 성과 기반 실행 사례 통합 플랫폼What Works Clearinghouse이 있다. USA 팩트는 미국 정부의 모든 지출 데이터를 수집 및 구조화하고, 성과 기반 실행 사례 통합 플랫폼은 교육 개입의 효과를 분석한 평가 연구를 체계적으로 코드화한다.
인센티브
데이터는 수요가 있을 때 가치를 발휘한다. 기업 부문에서는 이윤을 추구하는 본질적 동기가 작동하면서, 기업들이 정제되고 실행 가능한 임팩트 데이터를 자연스럽게 활용하게 된다. 반면 소셜섹터에는 임팩트에 대한 재정적 보상 체계가 마련되어 있지 않다 보니 더 나은 데이터를 확보하더라도 수익으로 이어지지 않는다. 그러나 이러한 구조는 정책 입안자, 혁신가 그리고 영향력 있는 자금 제공자들의 노력으로 변화시킬 수 있다.
가장 직접적인 인센티브는 임팩트 성과에 따라 금전적 보상을 제공하는 것이다. 2004년, 안사리 엑스프라이즈Ansari XPRIZE가 2주 안에 두 차례 우주 비행이 가능한 재사용 가능 유인 우주선을 개발한 팀에게 1천만 달러의 상금을 수여했다. 당시로서는 역사상 가장 큰 규모의 상금이자, 최초의 대규모 성과 기반 보상pay for outcomes 인센티브 모델이었다. 그 이후로 여러 경연들이 상금과 성과를 연결하는 방식을 채택했다. 사회성과연계채권social impact bonds과 여러 혁신 금융 모델을 포함한 성과 기반 보상 방식은 모두 이와 같은 인센티브 구조에 뿌리를 두고 있다. 재정적 보상과 임팩트 사이의 연계성이 강화될수록, 데이터와 데이터 정제소에 대한 수요는 더 커질 수 밖에 없다.
이와 같은 원리는 학술 연구에도 그대로 적용된다. 여전히 학술 연구는 가장 방대한 '데이터'의 보고이지만, 출판되는 대부분의 논문은 택소노미를 적용하지 않은 채 비구조화된 형식으로 발행된다. 그 결과 개별 연구 결과를 코드화하고 통합해 데이터 정제소로 집계할 수 있는 여지가 줄어든다. 결과적으로 학계는 여전히 문헌 검토 과정에서 불리언 검색Boolean searches에 의존하고 있으며, PDF 파일을 모아놓은 수준의 근거 기반 문헌 자료집을 구축하는 데 머물러 있다. 정년 보장을 좌우하는 학계의 성과 평가 인센티브 체계를 바꾼다면, 데이터 정제소에 대한 수요도 함께 촉진될 수 있을 것이다.
투자
마지막으로 소셜섹터의 주요 자원 배분자인 연방정부 기관, 민간 자선단체, 기업은 임팩트에 대한 투자 방식을 전환해야 한다. 우선 조직이 미션을 수행하고 성과를 창출하는 데 필수적인 운영 역량의 중요성을 인식하고, 이를 뒷받침할 데이터 기반 역량에 투자해야 한다. 둘째, 연구개발, 혁신, 신기술 분야에 대한 대규모 자본 투입이 절실하다. 이는 제안에 그치지 않고, 공공과 민간 모두가 실질적인 자금 투자를 통해 적극적으로 행동에 나설 것을 촉구하는 메시지다. 1958년, 미국 정부는 군사 분야의 연구개발을 위해 국방고등연구계획국을 설립했다. 교육, 보건, 환경 분야에도 DARPA와 같은 조직을 설립할 수는 없을까? 셋째, 프로젝트 중심의 기존 자금 지원 방식에서 벗어나, 임팩트 데이터 정제소처럼 소셜섹터 전반의 역량을 강화하는 인프라 시스템에 장기적으로 투자해야 한다. 임팩트 데이터 정제소의 목표는 모든 조직이 미션 수행에 필요한 데이터에 공정하게 접근할 수 있도록 하는 것이다. 데이터, 데이터 활용 역량, 데이터 기반 인사이트는 예산이 풍부한 대규모 조직만이 접근할 수 있는 독점적 자원이 되어서는 안 된다.
데이터는 곧 힘이다. 데이터 격차를 해소하면 미션 중심 조직은 혁신하고, 자본에 접근하며, 고객과 수혜자의 요구에 효과적으로 대응할 수 있는 역량을 강화할 수 있다. 소셜임팩트 분야는 자원이 부족한 것이 아니라, 자원을 배분하는 방식에 문제가 있다는 지적이 많다(실제로 OECD 국가들의 사회 지출은 평균적으로 GDP의 20%에 달한다). 자원이 비효율적으로 배분되는 가장 큰 이유는 무엇이 효과적인지를 판단할 수 있는, 구조화된 임팩트 데이터 정제소와 같은 인프라가 부재하기 때문이다. 이로 인해 정책 입안자와 자금 제공자, 실무자들은 '무엇이 효과적인가'를 판단하는 데 있어 여전히 추측에 의존할 수밖에 없다. 민간 부문은 데이터를 활용해 실패 위험을 최소화함으로써 자본 투자에 대한 수익을 극대화해 왔다. 이제는 소셜섹터도 데이터 기반으로 움직여야 할 때다.
참고
1. Thomas Samuel Kuhn, The Structure of Scientific Revolutions, Chicago: University of Chicago Press, 1962.
2. Gordon Fletcher, The Keynesian Revolution and Its Critics: Issues of Theory and Policy for the Monetary Production Economy, London: Palgrave Macmillan UK, 1989.
> 원문 기사 보기
JASON SAUL
제이슨 사울은 시카고대학교 임팩트 사이언스 센터의 센터장이며, 임팩트 게놈 프로젝트Impact Genome Project의 설립자이자 CEO이다.
KRISS DEIGLMEIER
크리스 다이글마이어는 데이터 분석 소프트웨어 기업 스플렁크Splunk의 글로벌 임팩트 최고책임자이다. 스플렁크 합류 전, 타이즈 네트워크Tides Network의 CEO, 스탠퍼드 경영대학원 사회혁신센터의 센터장, 그리고 주마 벤처스Juma Ventures의 최고운영책임자를 역임했다.