[사회혁신 일반]데이터를 모으고, 공유하고, 구축하라

댓글   


사회혁신 일반 · 기술
데이터를 모으고,
공유하고, 구축하라

2025-2


NITHYA RAMANATHAN · JIM FRUCHTERMAN



Summary. 사회적 가치를 위한 AI를 구축하는 데 있어 데이터는 왜 가장 큰 걸림돌이 되고 있을까? 소셜섹터는 어떻게 이 문제를 해결할 수 있을까?



최근 생성형 AI의 급속한 발전에 발맞춰, 비영리 조직, 사회적기업, 자금 제공자들은 이 기술 혁신을 인류 공동의 이익에 어떻게 활용할 수 있을지 모색하며 분주히 움직이고 있다. 이러한 기대와 동시에 AI가 디지털 격차를 더욱 심화시키고, 전 세계 인구의 90%에 이르는 사람들의 삶을 개선하지 못할 것이라는 현실적인 우려도 제기되고 있다. 소셜섹터가 AI를 지능적이고 전략적으로 지원하는 지금의 흐름은 매우 중요하다. 이러한 접근은 한정된 자원으로 임팩트를 극대화하는 데 핵심 기반이 될 수 있기 때문이다.


그렇다면 소셜섹터는 이 변화의 시기를 어떻게 맞이해야 할까?


AI는 이미 다양한 분야에서 뛰어난 성능을 발휘하고 있으며, 지금도 많은 소셜임팩트 조직들이 AI를 활용해 긍정적인 성과를 내고 있다. 현재의 기술 환경을 이해하고, 기존 AI 기술을 조직의 미션 추구에 어떻게 활용할 수 있을지 파악하는 데 도움이 되는 자료들도 여럿 나와 있다. 대표적으로 스탠퍼드 HAIStanford HAI와 프로젝트 에비던트Project Evident의 인스파이어링 액션Inspiring Action 리포트 그리고 테크 매터스Tech Matters가 발간하는 비영리 조직을 위한 AI 보물지도AI Treasure Map for Nonprofits가 있다.


디지털 그린Digital Green, 칸 아카데미Khan Academy, 자카란다 헬스Jacaranda Health처럼 AI를 개발해 성공적으로 성장하고 있는 테크 포 굿Tech-for-Good 기업들도 있지만, 대다수의 소셜섹터 조직들은 아직 AI 솔루션을 구축할 준비가 되어 있지 않다. AI가 아직 당장의 우선순위가 아닌 조직이더라도, 문제 해결에 있어 AI를 효과적으로 활용하려면 불충분한 데이터의 문제를 어떻게 해결할지 지금부터 고민해야 한다.



데이터가 나쁘면 결과도 나쁘다

데이터는 AI를 움직이는 연료다. AI는 결국 하나의 기계이며, 이 기계가 얼마나 효과적으로 작동하느냐는 입력되는 데이터의 품질에 좌우된다. 문제를 해결할 수 있는 강력한 AI를 개발하는 데 있어 가장 큰 어려움은 양질의 훈련 데이터셋을 확보하는 것이다. 좋은 훈련 데이터셋은 다음 세 가지 조건을 충족해야 한다.


충분한 데이터 규모: 모델링하려는 모든 시나리오를 포괄할 만큼의 데이터 양이 확보되어야 한다.

지속적 업데이트 가능성: 모델링 대상이 바뀔 경우, 훈련 데이터셋도 그에 맞춰 갱신될 수 있는 체계를 갖춰야 한다.

높은 정확성: 알고리즘이 제대로 학습되려면, 훈련 데이터셋의 데이터가 사실에 부합하고, 현재의 맥락과 상황을 반영해야 한다.


위의 원칙은 케빈 스타Kevin Starr의 투자 원칙 '충분히 크고, 충분히 단순하며, 충분히 저렴할 것'에 착안한 것이다. 이러한 조건이 충족되지 않으면, AI 솔루션은 실행에 옮길 만큼 신뢰할 수 있는 결과를 내기 어렵다.


AI를 활용해 소셜섹터의 시급한 문제를 해결하려면 신뢰도가 높은, 최신의 정확한 데이터가 필요하다. 그러나 이런 데이터는 존재하지 않거나 대부분 여러 조직과 시스템에 파편적으로 흩어져 있다. 그러다보니 소셜섹터에는 충분한 규모와 최신성, 정확성을 갖춘 훈련 데이터셋이 심각한 수준으로 부족하다.


AI의 혜택을 모두가 누리려면, 비영리 조직과 사회적기업, 자금 제공자, 커뮤니티 등 소셜섹터의 모든 주체는 윤리적이고, 체계적이며, 지속적인 데이터 수집을 조직의 핵심 업무로 삼고, 이를 책임 있게 수행해야 한다. 또한 우리가 개선하려는 상황에 대해 모두가 납득할 수 있도록, 데이터를 충분히 집계할 수 있게 하는 공유 데이터 인프라에 대한 투자도 반드시 병행되어야 한다.


이를 비유적으로 설명하자면, 자동차를 만들기 위해 도로에 먼저 투자하는 것과 같다. 이제 그 방법에 대해 살펴보자.



기반 투자: 더 나은 데이터에는 비용이 따른다

새로운 기술 패러다임이 등장할 때마다 우리는 이 기술이 좀 더 평등한 세상을 만들어줄 것이라 기대하지만, 같은 문제를 반복적으로 마주하게 된다. 바로 저소득 국가에 필수 인프라가 부족한 문제이다. 국가 간 인프라 격차의 핵심 요인 중 하나는 AI가 작동하는 데 필요한 데이터의 양과 유형 자체가 절대적으로 부족하다는 점이다.


사회를 크게 변화시키고자 한다면 데이터를 수집해야 하고, 그 방식을 한층 개선해야 한다. 신뢰성과 일관성, 정확성을 갖춘 데이터를 윤리적으로 수집하는 일에는 비용이 따르지만, 그것이 더 많은 사람이 새로운 기술의 혜택을 누릴 수 있는, 그런 생태계를 만드는 유일한 길이다.


민간 부문에서는 대규모 데이터를 활용해 AI 개발이 빠르게 진전되고 있다. 이와 달리 대부분의 소셜섹터 조직은 자신들의 활동과 성과, 해결하고자 하는 문제가 얼마나 광범위하고 심각한지를 입증할 데이터가 충분치 않아 어려움을 겪고 있다. 프로그램 모니터링과 평가를 위해 데이터를 수집할 때조차 그 목적은 지원금 사용 보고나 규정 준수에 있으며, 그 방식 역시 일회적이거나 지속 가능하지 않은 경우가 많다. 게다가 취약 계층의 동의, 데이터 소유권, 보안과 같은 윤리적 기준을 충족하면서 데이터를 수집하는 일은 매우 까다로워, 데이터 수집을 대규모로 확장하기 어려운 상황이다.


2009년, 넥스리프Nexleaf는 자원이 제한된 보건 시스템에 일관되고 신뢰할 수 있는 센서 데이터를 제공하겠다는 공동 창업자들의 비전을 바탕으로 설립되었다. 데이터가 인간의 행동을 이끌어내는 힘을 이해하고, 머신러닝 모델의 미래를 일찍이 내다본 기술 전문가였던 그들은, 견고한 데이터가 혁신을 가능하게 하는 필수 기반이라는 점에 주목했다. 사회적기업인 넥스리프는 각국 보건부가 백신 공급망을 실시간으로 파악하고, 자원 투입 우선순위를 전략적으로 설정하며, 고장 난 백신 냉장고와 운송 트럭을 신속히 수리할 수 있도록 지원하는 센서 데이터 플랫폼을 개발했다.


데이터 수집은 더 이상 단기 프로젝트를 마무리하기 위한 형식적 절차로 여겨져서는 안 된다. 모든 개입 활동의 핵심 요소로 인식하고, 예산 항목에도 반드시 반영해야 한다. 프로젝트 단위의 일회성 평가가 아닌, 지속적인 프로그램 운영 과정에서 윤리적으로 수집된 데이터는 향후 더 큰 임팩트를 만들어낼 기회를 제공한다. 복잡한 기계를 만들기 위해서는 먼저 기본을 이루는 나사와 볼트에 투자해야 하는 것과 같은 이치이다.



데이터 공유: 상호운용이 가능한 데이터셋은 혁신의 촉매가 된다

AI를 뒷받침하는 대규모 데이터셋의 수집과 관리에는 막대한 비용이 든다. 따라서 소셜섹터는 AI의 정확성과 유용성을 극대화할 수 있도록, 충분한 데이터 자원을 안정적으로 유지 및 관리하는 공유 데이터 인프라 구축과 운영 재원 마련에 적극 동참해야 한다.


공유 데이터 인프라 구축은 소셜섹터가 영리 부문과는 근본적으로 다른 방식으로 AI 혁신에 접근할 수 있는 핵심 영역이다. 서로 경쟁 관계에 있는 조직들조차 이를 위해 협력하며 공동의 이익을 실현하고 더 큰 임팩트를 낼 수 있다. 저소득 국가에서 농업 계획 도구를 제공하는 다양한 기업들의 협력 사례가 대표적이다.


그런데 문제는 이미 존재하는 데이터조차 제각각 흩어져 있고 서로 연결되지 않는다는 점이다. 예방접종 기록을 예로 들어보자. 어떤 국가는 자체적인 디지털 보건 시스템을 갖추고 있지만, 일부 국가는 두 개 이상의 앱 개발업체에 기록 관리를 맡기고 있어, 수집된 데이터가 따로따로 저장된다. 이런 상황에서 국경을 넘어 홍역이 발생한다면, 긴급 백신 접종 캠페인의 우선 실시 지역을 제안하는 알고리즘이 얼마나 제 역할을 할 수 있을까?


한편, 위기 상담전화는 상호운용성을 가장 잘 구현하고 있는 대표적인 사례다. AI 애플리케이션은 응급 정신건강 분야 상담사들이 한정된 자원으로 더 많은 사람을 지원하고, 심각한 인력 부족을 보완하는 데 큰 잠재력을 지니고 있다. 이러한 가능성 속에서 유사한 분야의 여러 기관이 기술과 익명화된 데이터를 공유하며 협력하고 있다. 대표적으로 트레버 프로젝트The Trevor Project는 구글닷오알지Google.org의 자금 지원과 프로보노 협력을 받아, LGBTQ+ 대상 위기 상담전화 자원봉사자 교육에 AI 시뮬레이터를 도입했다. 이를 통해 훈련생들은 AI 기반 가상 인물과 더 많은 역할극을 수행하며, 인간 트레이너의 시간과 부담을 줄일 수 있었다. 이 성과는 리플렉스AIReflexAI라는 별도 조직의 설립으로 이어져, 현재는 퇴역 군인의 정신건강 지원이나 중독 문제 지원 등 다양한 위기 상담 서비스로 확대되고 있다. 이와 유사한 사례로, 테크 매터스의 아셀로Aselo 프로젝트는 위기 대응 연락센터 플랫폼을 개발하고, 여러 국가의 아동 상담전화 기관들이 제공한 데이터를 바탕으로 대화 내용을 분류하는 오픈소스 AI 알고리즘을 만들고 있다. 이는 AI 기반 서비스 개선과 데이터 품질 향상에 필수적인 기능이다. 나아가 테크 매터스는 전 세계 아동 상담기관 연합체인 국제 아동상담전화 연합Child Helpline International과 협력해, 개인 정보를 제외한 여러 국가의 데이터를 통합분석하여 아동들이 직면한 문제를 더 깊이 이해하려는 작업도 진행 중이다.


넥스리프 애널리틱스Nexleaf Analytics는 이미 보건 시스템을 위한 공유 데이터 인프라를 구축 및 운영하고 있다. 이 플랫폼은 국가 전체 보건 체계에서 작동할 수 있는 데이터 관리 시스템과 표준화된 데이터 인터페이스API를 기반으로, 아프리카와 아시아의 여러 국가에서 운용 중인 다양한 백신 냉장고 모델의 데이터뿐 아니라 운송 차량과 콜드박스의 이동 데이터를 통합, 집계한다. 이러한 데이터 통합 시스템을 통해 각 국가는 백신 유통 공급망 전 과정을 종합적으로 파악할 수 있다. 한편 보건 당국은 데이터 수집, 정제, 라벨링 같은 번거로운 작업을 건너뛰고, 제한된 자원을 보건 시스템 운영을 위한 데이터 활용에 집중할 수 있고, 백신 콜드체인 장비 제조업체는 배포된 장비에서 수집된 데이터가 고객 국가의 콜드체인 자산 관리에 실질적으로 기여한다는 확신을 갖고, 자사의 핵심 기술 개발에 전념할 수 있다.


데이터 공유에는 기술적 인프라뿐 아니라 사회적, 법적 인프라도 필요하다. 이를 위해 테크 매터스는 최근 소셜섹터 조직들이 쉽게 채택할 수 있는 간단한 실천 원칙을 담은 데이터 거버넌스 이니셔티브 '더 나은 데이터 합의Better Deal for Data'를 발표했다. 이 이니셔티브는 두 가지 핵심 내용을 포함하고 있다. 첫째, 참여 조직은 서비스를 제공하는 커뮤니티의 데이터를 안전하게 보호할 책임을 지며, 해당 데이터를 영리 기업에 판매하지 않을 것을 약속한다. 둘째, 여러 조직의 데이터를 하나로 통합하는 과정을 보다 쉽게 만들어, 공익을 위한 지식과 AI 모델 개발을 지원한다.


국가와 정책 결정자들도 이러한 방향으로 나아갈 가능성이 크다. 예를 들어 케냐의 국가 AI 전략National AI Strategy은 AI 디지털 인프라, 데이터, AI 연구 및 혁신이라는 세 가지 핵심 요소를 제시하고 있다. 이 가운데 데이터 축은 AI 모델이 케냐의 사회적 맥락을 제대로 반영할 수 있도록, 데이터 부족 문제의 해결에 초점을 맞춘다. 궁극적으로는 견고한 데이터 거버넌스 체계의 구축과 안전한 데이터 공유, 접근, 상호운용성 확보를 위한 프로토콜 개발, 고품질 공개 AI 데이터셋 생성을 유도하는 인센티브 제공 등을 통해 데이터셋의 품질, 활용성, 공유성, 주권을 강화하는 것을 목표로 한다.


전면적인 상호운용성이 제대로 구현된다면, 개인, 조직, 국가의 데이터 주권과 소유권, 프라이버시를 침해하지 않으면서도 모든 애플리케이션에서 데이터의 잠재력을 최대한 발휘할 수 있다. 이는 사용자가 서비스 약관 옆의 체크박스를 무심코 클릭해 자신도 모르게 데이터 제공에 동의하는 방식이 아니라, 개인과 공동체의 권리를 강화하는 방식으로 데이터를 공유하는 것을 의미한다. 상호운용 가능한 데이터셋을 구축하려면 특화된 전문성이 필요하며, 소셜섹터의 리더들은 이를 위해 신중하고 전략적인 데이터 생태계 설계에 투자해야 한다. 예를 들어 데이터 커먼즈Data Commons와 같은 플랫폼은 별도의 데이터 정제나 병합 작업 없이도 다양한 출처의 데이터를 연계하고 활용할 수 있도록 한다. 이러한 표준 기반 접근은 더 정교하고 실용적인 데이터 인사이트를 도출하는 데 크게 기여한다.


파편적으로 흩어진 데이터를 모으기만 해도 우리가 직면한 문제 해결에 더 나은 해답을 찾고, 인류 공동의 글로벌 목표를 달성하는 데 한 걸음 더 다가갈 수 있다.



함께 구축하는 AI: 성공 조건은 무엇인가

AI 개발은 여전히 어렵고 비용도 많이 들기 때문에 이를 개별적으로 추진하는 것은 자원의 낭비로 이어질 수 있다. 이미 많은 사회적기업이 AI 관련 시도를 다양하게 하고 있다. 이 시도들이 반드시 중복되는 것도 아니지만, 단일한 체계 아래서 그것들이 서로 조율되고 연계된다면 훨씬 큰 시너지를 낼 수 있을 것이다. 이를 위해서는 공동 인프라와 협업 허브를 구축하고 투자하는 자금 지원 기관의 주도적인 역할이 필요하다.


협력체가 구성되면 특정 분야에서 우선순위가 높은 활용 사례를 중심으로 관련 데이터셋, 연구자, 비영리 조직, 정부 기관 등 다양한 주체를 연결해 AI 개발을 공동으로 추진할 수 있다. 데이터를 모으고 격차를 파악하며, 데이터를 공유하거나 AI 모델을 함께 개발하는 이러한 협력은 AI 솔루션이 생태계 전반에서 실제로 활용되고, 변화를 이끌어내는 동력이 된다. 예를 들어, 생물 음향bioacoustics(자연 속 소리를 분석해 생물의 종과 상태를 파악하는 과학)이나 무인 센서 카메라 분석에서 얻은 데이터와 AI 모델은 종 탐지, 개체 수 추정, 열대우림 보존, 밀렵 방지, 해양 소음 저감 등 다양한 활동에 활용될 수 있다. 이 분야에서는 여러 조직이 협력해 와일드라이프 인사이트Wildlife Insights와 아비먼Arbimon 같은 대규모 공유 데이터셋을 활용한 공동 AI 도구 개발 체계를 구축했다. 특히 와일드라이프 인사이트는 자연보전 관련 비영리 단체들이 연합해 구축한 공유 인프라로, 모든 조직이 카메라 트랩으로 촬영한 사진을 업로드하고, 종 식별 AI 모델로 데이터를 분석할 수 있게 설계되었다. 이 플랫폼은 전 세계 생물 종에 대한 보다 광범위하고 종합적인 정보 체계를 공동으로 구축하는 동시에 더 정교한 AI 모델을 함께 개발할 수 있도록 지원한다.


공통된 목표를 가지고 있지만 방대한 데이터가 여러 조직에 흩어져 있는 분야라면, 서로 연합해 공동의 AI 솔루션을 구축하는 것이 더 큰 성과를 거두는 방법일 수 있다. 비슷한 모델을 매번 새로 만들기보다 '어려운 수학 문제는 함께 한 번만 풀고' AI가 도출한 결과와 인사이트를 실행으로 옮기는, 진짜 과제에 집중하는 것이 훨씬 현명하다.



결론

사회적 가치 실현을 위해 AI를 최대한 활용하려면, 다자간 국제기구, 재단, 비영리 조직이 서로 긴밀히 협력해야 한다. 특히 기부자는 지속 가능한 데이터 수집 활동과 공유 데이터 인프라 구축을 주도하고, 이에 대한 재정 지원에 앞장서야 한다. 여기서 말하는 공유 데이터 인프라는 다음과 같은 핵심 요소를 포함한다.


기술 인프라: 클라우드 시스템, 디지털 연결망, 상호운용 가능한 소프트웨어, 데이터 수집 도구 등

소프트 인프라: 역량 강화, 운영 프로세스, 윤리적 기준, 자금 조달 등


유사한 목표를 가진 조직들이 결집해 AI 기반 솔루션 개발에 공동으로 나선다면, 더 많은 조직이 AI의 혜택을 누릴 수 있다.


하버드 비즈니스 리뷰와의 인터뷰에서 엔비디아의 응용 딥러닝 연구 부문 부사장 브라이언 카탄자로Bryan Catanzaro는 "AI에 가장 유용한 데이터는 언제나 가장 비밀스러운 데이터일 것입니다"라고 말하며, 데이터에 대한 업계의 지배적인 시각을 드러냈다.


이윤을 추구하는 기업에는 이런 접근이 설득력 있을지 모른다. 그러나 사회적 가치를 지향하는 소셜섹터는 데이터를 경쟁 자산으로 삼아 고립된 데이터 사일로를 만드는 방식에서 과감히 벗어나야 한다. 복잡하고 풀기 어려운 사회문제를 해결하려면 기존의 데이터 접근 방식을 근본적으로 뒤집어야 한다. 사회변화를 위한 AI에 가장 유용한 데이터는 감춰진 데이터가 아니라, 여러 조직이 함께 축적해 규모와 최신성, 정확성까지 모두 갖춘 데이터다. 그래야 인류가 직면한 가장 중대한 문제에 대응할 수 있는 토대가 마련된다.


더 나은 데이터를 수집하고, 흩어진 데이터를 연결하며, AI 혁신을 위한 협력에 나서는 일이다. 이러한 공동의 노력을 지금부터 실행한다면, 소셜섹터는 AI의 잠재력을 인류 공동의 이익을 위해 활용할 수 있는 확고한 토대를 마련할 것이다.




> 원문 기사 보기


NITHYA RAMANATHAN

니티야 라마나단은 넥스리프 애널리틱스Nexleaf Analytics의 공동 설립자이자 CEO다.


JIM FRUCHTERMAN

짐 프럭터맨은 테크 매터스Tech Matters의 설립자이자 CEO다.