[측정과 평가]임팩트를 측정하지 않아야 하는 10가지 이유와 그 대안

댓글   PDF 다운로드


소셜임팩트 · 측정과 평가
임팩트를 측정하지 않아야 하는
10가지 이유와 그 대안

2018-1


 MARY KAY GUGERTY · DEAN KARLAN



Summary. 임팩트 측정의 중요성에 대한 공감대가 확대되고 있지만, 그것이 곧 모두에게 임팩트 측정이 필요하다는 것을 의미하지는 않는다. 상황에 맞게 필요여부를 판단하고 적절한 방법과 수준으로 임팩트를 측정해야 한다.



당신이라면 오늘 한 아이를 조금이라도 도울 것인가? 아니면 몇 년 후에 다섯 명의 아이들을 좀 더 크게 도울 것인가? 현재 운영 중인 프로그램에 사용되는 자금은 오늘 도움이 필요한 아이들을 위해 사용된 비용이며, 이것은 충분히 가치가 있는 일이다. 반면, 임팩트 측정 및 평가를 위해서 연구에 오늘 사용 된 자금은─적어도 이론상으로는─아이들을 미래에 더 잘 돕기 위한 투자이다. 물론 이런 상충관계는 다소 복잡하기도 하고, 명확하지 않거나 불확실한 부분도 있다. 그럼에도 불구하고 연구를 통해 투입예산 대비 보다 큰 임팩트를 가져올 수 있다는 논리는 설득력을 가진다.


하지만 이런 논리에는 우리가 확실히 짚고 넘어가야 할 부분이 있다. 부실하게 설계된 연구는 결국 미래의 아이들을 돕지 못할 것이고, 이는 결국 예산의 낭비일 뿐이라는 점이다.


양질의 임팩트 측정 및 평가 연구는 정책 관련 이슈에 대해 신뢰할 만한 해답을 제공하면서 개발협력 분야의 지식 축적, 정책 수립, 실무 역량 발전에 기여해 왔다. 예컨대 비영리기관 리빙굿즈Living Goods는 방문 판매 및 판촉 활동을 기반으로 지역보건을 향상시키는 사업모델의 임팩트를 엄격한 평가를 통해 측정 했다. 임팩트 측정의 결과는 강력했다. 아동 사망률이 27% 감소한 것으로 나타난 것이다. 이 증거는 바로 정책 입안자, 협력 파트너 및 주요 투자자들을 설득하는 데 사용되었으며, 그 결과 500만 명에 달하는 사람들에게 자신들의 모델을 빠르게 확산시킬 수 있었다. 이처럼 신뢰성 높은 증거는 지속적으로 해당 사업모델 의 효과를 검증해 주고, 또한 사업이 더욱 개선될 수 있도록 도와준다.


물론 엄밀하게 설계된 모든 연구가 항상 빠르고 긍정적인 결과를 제공하는 것은 아니다. 예를 들어 신약 개발에서 성공적인 약물을 발견하기 위해 수행되는 엄청난 양의 연구, 법적 승인을 받는 데 필요한 기나긴 절차, 헬스케어 시스템에 의해 채택되기 위해 소요되는 긴 과정을 생각해 보자. 이는 빈곤 퇴치 연구에도 동일하게 적용된다. 전 세계 빈곤 퇴치를 위한 연구 및 정책 수립에 힘쓰는 비영리단체 IPAInnovations for Poverty Action는 빈곤 문제의 해결책을 찾기 위해 임팩트 평가를 수행한다. 2002년 설립된 이래 IPA는 650건 이상의 무작위 통제 연구(RCT)Randomized Control Trial를 실시해왔으며, 이를 통해 희소자원의 최적 활용 전략과 예산낭비 회피 전략 등에 대한 증거를 제공해 왔다. 희소자원의 최적 활용 전략의 예시로는 말라리아 퇴치를 위해 침대그물 모기장을 무료로 제공하는 것이 유리하다는 것이 있으며, 예산낭비 회피 전략의 예시는 전통적 마이크로 크레딧의 확대는 별로 의미가 없다는 것이 있다. 그러나 많은 경우 그들의 연구는 즉각적인 정책 변경에 도움이 될 정도의 선명한 그림을 보여주지 못했다. 임팩트 연구결과를 바탕으로 데이터베이스를 구축해 나가는 것은 마치 모자이크를 맞추어 나가는 것과 비슷하다. 각각의 개별적인 모자이크 조각이 바로 그림을 보여주지는 못하지만, 조각이 하나둘씩 더해지면서 전체적인 그림이 조금씩 더 명확해진다. 파편적인 임팩트 연구 결과는 정책적 시사점을 도출하는 데 한계가 있으며 전체적인 그림을 만들기 위해 증거자료의 데이터베이스를 전략적으로 구축할 필요가 있다. 


임팩트 측정 연구를 위한 투자는 얼마나 효율적일까? IPA는 투자 수익률(ROI) 개념을 바탕으로 임팩트 측정 연구의 가치를 추정했다. IPA 창립 이후 수행한 연구를 통해 증명된 임팩트를 바탕으로 사업이 확장되어 큰 성공을 거둔 사업들의 총편익을 계산하고, 이를 IPA가 연구를 위해 투입한 총비용으로 나눈 비율을 살펴본 결과 그 비율은 74배로 매우 우수한 결과였다. 하지만 이 비율 값은 IPA가 존재하지 않는 경우의 결과를 고려하지 않았기 때문에, 엄밀한 의미에서 임팩트 측정이라 말할 수 없다. IPA 사업의 정확한 임팩트 평가를 위해서는 IPA의 개입 없이도 존재하는 베이스라인 임팩트와 IPA의 사업을 통해 발생한 임팩트의 차이를 비교하는 사후가정counterfactual 접근방식의 엄밀한 비교가 필요하다. 정작 자신들의 연구가 만드는 임팩트는 RCT로 측정하지 못하면서, 남들의 사업이 만드는 임팩트를 측정할 때는 RCT 방식을 옹호하는 것이 모순적으로 보일 수 있다는 점을 IPA는 인정한다. 하지만 엄밀한 수준의 RCT가 항상 필요한 것은 아니며, IPA의 접근방식은 나름의 지적 일관성을 가지고 있기도 하다.


IPA의 접근방식이 가져오는 몇 가지 이점을 생각해보자. IPA는 절대로 기관 단독으로 일하지 않으며 그들이 수행하는 모든 임팩트 연구와 정책 참여는 학계, 사업수행기관, 공공기관과 함께 이루어진다. 아이디어에서 시작하여 연구를 거쳐 정책 수립으로 이어지는 과정에는 여러 단계가 있고, 많은 사람 및 기관들의 참여가 필요하다. 그 기간이 몇 년을 넘어갈 때도 종종 있다. 이 과정에서 IPA의 기여도가 전체 편익 중 10%에 불과하다고 가정하더라도, IPA 임팩트 측정 연구의 비용 대비 편익 비율은 여전히 7.4배이다. 이 정도면 훌륭한 투자 수익률(ROI)로 볼 수 있다.


수준 높은 임팩트 측정 연구가 가져오는 가치가 입증되었음에도 불구하고, 그동안 부실한 연구설계, 부적절한 연구수행, 그리고 부정확한 임팩트 평가와 연관된 연구에 너무 많은 돈과 시간이 낭비된 것도 사실이다. 몇몇 연구는 표본의 크기가 너무 작았거나 양질의 데이터 획득에 소홀했다. 어떤 경우에는 인과관계를 보이기에 미흡하기도 했다. 이런 종류의 결과들은 모두 무시되어야 한다. 어떤 경우에는 연구결과는 훌륭했지만 이해관계자들을 적절히 참여시키지 못했고, 그 결과 유용한 연구결과가 사장되기도 했다.


임팩트를 측정하라는 압력이 점점 높아지고 있지만, 이는 오히려 형편없는 연구와 예산 낭비로 이어질 수 있다. 그뿐 아니라 성과 향상에 실질적 도움이 될 수 있는 데이터를 수집하는 데 쓰일 수 있었던 자원을 다른 곳으로 분산시킬 수도 있다. 이러한 문제점을 지적하고, 조직이 각자의 상황과 처지에 적합한 성과 증거를 획득하기 위한 전략을 설계하는 데 도움이 되도록 우리는 <The Goldilocks Challenge>라는 책을 썼다. 조직의 상황과 처지에 딱 맞는 성과 증거를 얻으려는 노력은 고전적인 어린이 우화의 주인공 골디락스가 직면한 상황과 닮아 있다. 어느 날 숲속에서 길을 잃은 골디락스는 빈집을 하나 발견한다. 그 집에는 다양한 종류의 침대와 의자, 여러 가지 온도의 죽 등 선택가능한 많은 옵션이 있었다. 그녀는 모든 옵션을 시도해 보지만 대부분 그녀에게 맞지 않는다는 것을 알게 된다. 스프는 너무 뜨겁거나 너무 차가웠고, 침대는 너무 딱딱하거나 너무 푹신했다. 그녀는 자신에게 딱 맞는 옵션을 찾기 위해 고심한다. 골디락스가 그랬던 것처럼, 소셜섹터는 각자 그들의 필요에 맞는 모니터링 및 평가(M&E) 시스템을 만들기 위해 많은 선택지를 고려하고 시도해 보아야 한다. 어떤 이들은 더 많은 데이터를 얻기 위해 노력할 것이고 다른 이들은 그렇지 않을 것이다.


각자에게 맞는 적절한 수준의 성과관리 시스템을 만들려면 임팩트를 측정해야 하는 상황과 측정하지 않아야 하는 상황을 같이 고려해야 한다. 임팩트 측정의 여러 가지 이점을 고려할 때, 임팩트를 측정하지 않는다는 것이 무책임하게 보일 수 있다. 그러나 고집스럽게 임팩트를 측정하는 것은 또 다른 중요한 데이터를 수집하는 것에 부정적 효과를 가져올 수도 있다.



부적절한 우선 순위

우리의 주장이 이상하게 느껴지는가? 임팩트 평가가 그렇게 중요하다면, 왜 우리는 임팩트 평가를 제한적으로 활용해야 한다고 주장하는 것일까? 사실상 데이터 수집 및 분석 비용의 급격한 감소는 분명히 임팩트 측정의 매력이 높아지는데 기여해 왔다. 30년 전만 해도 장거리 전화 사용은 예산에 큰 부담을 주었지만 지금은 무료 화상회의를 통해 여러 나라의 사람들을 한 번에 연결할 수 있다. 예전에는 NGO 등의 조직들이 데이터 수집에 지나치게 큰 비용과 시간이 소요된다고 주장할 수 있었지만 오늘날 데이터 수집, 저장 및 분석 비용은 매우 저렴하다. 수백만 개의 데이터 관측치를 쉽게 처리하여 단 몇 분 만에 현장 실무자에게 분석결과를 제공할 수 있다. 기술의 빠른 발전과 함께 예컨대 위성 이미지와 GPS 모니터링 장치가 NGO 등이 수행하는 프로그램의 실행 전략에 영향을 미치고 있으며, 이에 따라 임팩트 연구자와 평가자가 제기할 수 있는 질문도 점점 더 다양해지고 있다. 보다 신속하고 저렴한 데이터 접근성은 조직과 이해관계자들이 더 많은 데이터를 원하게 만들고 있다.


사업성과를 보다 쉽게 측정할 수 있는 역량이 높아짐에 따라 공공 및 소셜 섹터에서 요구하는 책무성의 수준 역시 높아지고 있다. 빌 앤 멜린다 게이츠 재단Bill & Melinda Gates Foundation에서부터 영국 국제개발부(DFID)에 이르기까지 주요 도너들은 사업수행기관이 창출한 임팩트의 증거를 요구하고 있다. 사회성과연계채권(SIB)Social Impact Bond과 성공기반 지불방식Pay-for-Success 프로그램은 검증된 성과와 자금을 연계하여 지원하는 방식을 통해 효과적으로 사업을 수행한 이니셔티브에 자금을 지원해 준다. 효과적 이타주의의 신봉자들은 자선가들에게 효과성이 확실하게 검증된 프로그램에만 기부하라고 설득하고 있다.


임팩트 측정을 중시하는 추세는 대부분 긍정적이다. 하지만 때로는 임팩트를 증명하려는 노력이 오히려 자원을 낭비하거나, 임팩트 평가에 유리한 방향으로 모니터링의 역할을 축소시키기도 한다. 심지어는 임팩트를 보여주기 위해 부실한 또는 잘못된 방법론의 사용을 확대하는 데 기여하기도 한다. 예컨대 어떤 조직은 자신들의 역량으로는 분석할 수 없을 정도로 많은 데이터를 수집하여 결국 시간과 예산을 낭비한다. 시간 경과에 따른 결과의 변화를 추적하고자 했던 어떤 조직은 잘못된 데이터를 수집하는 바람에 그 변화가 조직이 운영한 프로그램으로 인해 발생한 것인지 아니면 프로그램 진행 기간 동안 다른 이유로 인해 발생했는지 여부를 파악하지 못한 경우도 있다.


허접한 임팩트 평가는 오해를 부르는 또는 아예 잘못된 결과를 제시하여 결국 그릇된 의사결정으로 이어질 수 있다. 이로 인해 효과적인 프로그램은 무시되고, 대신 효과가 없는 프로그램이 자금을 지원받을 수 있다. 그러한 사회적 비용 외에도, 허접한 임팩트 평가에는 중요한 기회비용이 존재한다. 허접한 임팩트 평가에 사용된 자원은 대신 사업 수행이나 보조금 지급, 프로그램 지원에 쓰일 수 있었다.


임팩트와 관련된 낭비의 대부분은 임팩트라는 단어의 남용에서 비롯된다. 임팩트는 단순한 유행어가 아니다. 임팩트는 인과관계를 의미하며, 어떤 조직 또는 프로그램이 어떻게 세상을 변화시 켰는지를 보여주는 단어이다. 임팩트를 측정한다는 것은 사후가정counterfactual 접근법, 즉 만약 프로그램이 없었다면 어땠을지를 상정해 프로그램의 성과를 추정하는 방법의 사용을 암묵적으로 의미한다. 이런 전문용어는 기술적으로 들릴 수도 있지만, 개인과 지역사회를 돕기 위해 한정된 자원을 어떻게 배분하는 것이 가장 효과적일지를 연구하는 데 있어서 매우 중요한 의미를 갖는다.


사후가정 접근법을 위한 가장 확실한 방법은 무작위 통제실험(RCT)l을 활용하는 것이다. 무작위 통제 실험에서는 프로그램에 대한 참여 여부 또는 프로그램의 일부 속성이 무작위 할당을 통해 결정된다. 사후 가정 접근법 없이는 과연 특정 프로그램이 변화를 일으켰는지, 아니면 날씨, 경제성장, 정부정책 등의 외부 요소가 변화를 촉발했는지의 여부를 알 수 없다. 프로그램에 참여한 사람들의 삶이 바뀐 것이 프로그램 때문인지 또는 다른 외부적 요인 때문인지 알 수 없다. 엄밀한 사후가정 접근법은 오랜 기간 통념으로 받아들여졌지만, 사실은 잘못된 믿음을 바꿀 수 있다. 예컨대 사후가정 접근법을 기반으로 마이크로크레딧microcredit 프로그램의 임팩트를 평가한 최근의 어떤 연구를 보자. 해당 연구에서는 마이크로크레딧이 가계소득에 미치는 임팩트가 그동안 마이크로크레딧의 옹호자들이 주장한 것보다 훨씬 작다는 사실을 발견했다.


임팩트 측정을 너무 강조하다 보면 좋은 사업운영에 대한 모니터링 데이터의 수집이 어려워질 수 있다. 스태프의 업무수행, 프로그램 수혜자의 서비스 참여 및 이용, 이해관계자의 견해와 같은 정보는 조직 발전 및 프로그램 개선에 유용하다. 임팩트 평가로 인해 이와 같은 모니터링 데이터가 종종 수집되지 않거나 또는 충분한 가치를 인정받지 못하곤 한다. 물론 임팩트는 궁극적인 목표라는 점에서 이해되는 부분도 있기는 하다. 사람들은 종종 임팩트 측정을 위한 데이터와 사업운영 모니터링을 위한 데이터를 같은 것으로 착각하곤 한다. 예컨대 마이크로크레딧과 같은 서비스의 수혜자 수는 전형적인 산출 데이터로, 중요한 사업운영 데이터이지만 임팩트를 보여주는 데이터는 아니다. ‘5만 명의 고객에게 서비스를 제공했다’는 것은 임팩트 측정과는 무관하다.


기관 차원에서는 임팩트를 필요시 정확하게 보고하고, 책무성을 입증하며, 의사결정권자에게 시의적절하고 실행 가능한 사업 운영 데이터를 제공하는 데이터 수집 전략 및 시스템을 구축할 필요가 있다. 기금 제공자 및 비영리 이해관계자 입장에서 가장 중요 한 일은 기관이 적합한 증거자료 시스템을 개발하도록 요구하고, 적절한 때에만 임팩트 평가를 요청하는 것이다.


지금부터 우리는 임팩트를 측정하지 않아야 하는 10가지 이유를 제시한다. 다음 우리는 기관에 적합한 모니터링 및 평가 시스템 구축을 위한 프레임워크를 제공한다. 이는 기관이 책무성, 학습 및 사업개선에 필요한 데이터를 일관되고 적절하게 얻을 수 있도록 도울 것이다.



10가지 이유

임팩트를 측정하지 않아야 하는 10가지 이유는 크게 4개의 카테고리─‘좋은 도구가 아니라서(Not the right tool)’, ‘좋은 시점이 아니라서(Not now)’, ‘측정이 가능하지 않아서(Not feasible)’, ‘측정의 가치가 높지 않아서(Not worth it)’ 등으로 나누어 볼 수 있다. 각각의 이유에 대해서 우리는 임팩트 평가의 지지자들에게 임팩트 평가 대신 채택할 수 있는 대안을 제시하고자 한다.


1. Not the right tool: 훌륭한 질문, 잘못된 접근

다음은 프로그램의 평가를 위해 제기할 수 있는 훌륭한 질문들이다. 성공적인 또는 그렇지 않은 프로그램 수혜자에 대한 비하인드 스토리는 무엇인가? 운영모델을 개선해서 동일한 서비스를 보다 낮은 비용으로 제공할 수 있는가? 우리는 처음부터 수혜자 집단으로 타겟팅했던 사람들에게 제품과 서비스를 제공하고 있는가? 이해관계자들은 우리가 제공하는 서비스 수준에 만족하고 있는가? 우리가 제공하는 서비스에 대한 수요는 충분히 존재하는가? 수요는 지속적인가, 즉 사람들이 더 많은 서비스를 받기 위해 다시 방문하고 재사용하는가? 우리가 해결하고자 하는 문제가 우리가 처한 상황에서 가장 중요한 것인가?


이러한 질문들은 핵심 이해관계자가 종종 대답을 원하는 것들이다. 이 중 일부는 데이터로 대답할 수 있지만, 어떤 질문들은 데이터로 대답하기 어렵다. 그러나 여기서 핵심은 이런 질문에 대한 대답을 임팩트 측정으로 얻을 수 없다는 것이다.


대안 : 이러한 질문에 대답하려면 데이터 수집 및 분석 시 질문에 명확히 초점을 맞춰야 한다. 이해관계자 만족도를 이해하려면 피드백 데이터가 필요하다. 프로그램 제공의 효율성을 향상시키려면 사이트별 또는 제품/서비스별 비용구조에 대한 자세한 데이터가 필요하다. 이들은 모두 중요한 프로그램 모니터링 데이터이지만, 이를 얻기 위해 임팩트 평가가 필요한 것은 아니다.


2. Not Now: 프로그램 설계가 아직 준비되지 않은 경우

변화이론Theory of Change의 적용은 모니터링 또는 평가 전략을 기획하는 첫 번째 단계이다. 변화이론은 프로그램에 무엇이 투입되고, 어떤 결과가 산출되었고, 그 산출된 결과로 인해 세상이 어떻게 변화할 것으로 예상되는지를 보여준다. 변화이론이 없다면 스태프들은 프로그램을 수행하는 이유나 방식에 대해 서로 다르게 이해하거나 혼란스러울 수 있으며, 이에 따라 구성원 간의 사업수행 방식에 큰 차이가 발생할 수 있다.


변화이론을 명확하게 적용해 보는 것은 그저 자선가들을 설득하기 위한 탁상공론이 아니다. 변화이론은 적합한 데이터 수집 시스템을 통해 조직이 약속한 내용을 실천하고 있는지 확인하기 위해서 필요한 데이터가 무엇인지 분명하게 알려준다. 또한 사후가정 접근이 불필요한 프로그램을 통한 학습 및 개선을 위한 피드백 및 참여도를 제공하기 위해 필요한 데이터, 사후가정 접근이 필요한 임팩트 평가를 위한 핵심성과지표에 대한 지침을 제공해 줄 데이터가 무엇인지도 알려준다.


검증되지 않은 변화이론은 잘못된 가정을 포함할 가능성이 높다. 예를 들어 프로그램 요소들 간의 연결성에 대한 가설, 이론이 실제로는 성립하지 않을 수 있다. 또한 데이터 분석결과가 가설을 기각하는 쪽으로 도출될 수도 있다. 프로그램 성과는 프로그램의 교육과정을 마친 사람들에 의해 좌우될 수 있다. 그들이 정말 프로그램을 통해 성과를 얻었는가? 양질의 운영 데이터는 이런 질문의 해결에 도움을 줄 수 있다. 마찬가지로 마이크로크레딧과 같은 프로그램 서비스에 대한 수요가 있다고 가정할 수 있지만, 제대로 된 고객 관점의 니즈 평가를 통해 고객들에게 마이크로크레딧 이외에 합리적인 신용대안이 있음을 발견할 수도 있다. 


변화이론의 주요 가정을 검증하기 전에 수행된 대규모 임팩트 평가는 잘못된 방향으로 이루어질 가능성이 높다. 또한 나중에 연구결과의 해석에 대한 의견 충돌이 발생하기 쉽다. 만약 프로그램이 제대로 작동하지 않는 것으로 평가 결과가 나오면 사업수행 기관은 프로그램 평가가 현재 실행 상황을 제대로 반영하지 않는다고 주장하면서 결과의 수용을 거부할 것이다.


대안 : 변화이론의 초기 단계를 검증하는 것은 임팩트 측정으로 넘어가기 전에 반드시 거쳐야 하는 중요한 단계이다. 출산 전 및 유아기의 성과를 개선하기 위해 임산부에게 아동의 발달과 건강 및 영양에 대한 정보를 제공하는 프로그램을 생각해보자. 임산부가 실제로 훈련에 참석하고 가이드라인을 따를 것인지에 대한 검증 없이 임팩트 평가를 시작하는 것은 별 의미가 없다. 먼저 수혜자가 프로그램에 참여할 기본적 의사가 있는지, 그리고 프로그램에서 배운 것들 중 일부를 즉각 행동으로 옮길 의사가 있는지를 확인해야 한다. 수혜자에게 예금계좌를 제공하는 프로그램에 대한 임팩트 평가를 시작하기 전에 사람들이 실제로 예금계좌를 개설할 것인지, 개설 후 계좌에 돈을 넣을지 여부를 미리 생각해 보아야 한다. 그렇지 않다면 예금계좌 기반 프로그램의 기획은 재고해 보아야 한다.


변화이론이 아직까지 충분히 고려되지 않았다면, 가장 먼저 해야 할 일은 프로그램을 위한 변화이론을 개발하는 것이다. 단계별로 사업을 실행하는 과정에서 변화이론의 기본 가정들이 성립하는지 검토하고, 이를 검증하기 위한 데이터를 수집해야 한다. 변화이론의 실행과 수혜자 참여에 대한 모니터링 데이터를 수집한 후에 임팩트 평가 절차로 진행하는 것이 순리이다. 우리의 프로그램은 목표 수혜자들에게 잘 제공되고 있는가? 프로그램 수혜자들은 우리의 제품과 서비스를 실제로 이용하고 있는가? 그들은 우리의 제품과 서비스를 얼마나 오래 그리고 얼마나 자주 사용 하는가? 이와 같은 모니터링 정보를 바탕으로 우리는 프로그램을 어떻게 개선할 수 있을지 고민해 보아야 한다.


프로그램이 여전히 도입 단계에 있고 실행 결과가 다소 미흡하다면, 아직 임팩트를 측정하기에는 너무 이르다. 프로그램의 임팩트를 평가하기에 좋은 타이밍이 언제인지 판단하는 것은 쉽지 않은 일이지만, 나름 몇 가지의 원칙을 세워볼 수는 있다. 예컨대 프로그램에 대한 기본 수요가 관찰되었거나, 이해관계자들이 긍정적 피드백을 주는 경우 등이다. 물론 이러한 원칙을 특정한 상황에 적용하는 것은 쉽지 않다. 프로그램 실행과정에서 뭔가 문제가 나타난다면, 많은 경우 가장 현명한 해결책은 잠시 기다리면서 프로그램이 자체적으로 그 문제를 해결하도록 두고 보는 것이다. 예컨대 여성 수혜자들이 트레이닝 프로그램에 참석하지 않거나 교사가 새로운 커리큘럼을 따르지 않는다면, 일단 기다리면서 상황을 지켜보고 새로운 인센티브 또는 전략을 시도해 보아야 한다. 그 과정에서 사업의 진전도를 보여주는 좋은 모니터링 데이터를 수집해야 한다.


3. Not Now: 프로그램 실행이 미흡한 경우

프로그램의 변화이론이 완전히 정의되고 기본 가정이 검증되었더라도 실행이 미흡할 수 있다. 이런 프로그램에서 임팩트가 발견되지 않았다면 그 이유를 해석하기 어렵다. 임팩트가 없었던 이유는 미흡한 실행 때문일 수도 있고, 잘못된 파트너를 만났기 때문일 수도 있다. 혹은 외부상황(예 : 시민들의 소요 또는 혼란)으로 인한 것일 수도 있다. 이유가 어느 쪽이든 실행이 미흡한 상황에서 임팩트를   평가하는   것은   잘못된   선택이다. 이전 사례로 돌아가보자. 출산 전 교육 프로그램의 경우 프로그램이 테스트된 이상적 환경에서는 산모들의 교육 수요가 존재하고, 그들이 교육을 끝까지 수료할 것이라고 판단했을 수 있다. 그러나 프로그램 진행 과정에서 교육이 원래 계획대로 실행되지 않거나 참가자의 일부가 교육을 수료하지 않는다면 의미 있는 결과를 기대할 수 없다. 따라서 임팩트 평가를 진행하기 전에 사업실행에 대한 기본적 정보가 필요하다. 이를 통해 프로그램이 기획된 대로 어느 정도 실행되어 이해관계자도 만족했다면 평가에 의미가 있겠지만, 만약 그렇지 않다면 평가에 사용된 자원은 낭비이다.


대안 : 좋은 모니터링 데이터를 수집하고 이를 사용하여 사업실행을 강화해야 한다. 평가자는 사업실행을 개선하기 위해 프로그램 리더들과 협력할 수 있다. 또는 해당 조직이 아직까지 임팩트 평가를 받을 준비가 되어 있지 않다고 판단할 수도 있다.


하지만 실제 상황에서 정치적 이유로 또는 자금 확보를 위해 지금 당장 임팩트를 평가해야 한다는 압력이 거세다면 어떻게 할 것인가? 만약 그렇다 하더라도 프로그램의 준비가 아직 미흡하다면 과연 임팩트 평가가 적절한지 신중히 생각해야 한다. 지금까지 현장에서 실행된 결과를 바탕으로 임팩트 평가를 하는 것이 변화이론에서 제기된 가설들의 해답을 찾는 데 도움이 되는가? 임팩트 평가를 통해 혁신적이고 논쟁의 여지가 많은 프로그램이 이해관계자들에게 받아들여질 가능성이 높아지는가? 아래에서 논의될 평가시 기술적인 문제들이 해결 가능하며, 신뢰할 만한 대조군 그룹을 구성할 수 있는가? 이상의 질문들을 모두 만족시킬 수 없다면 임팩트 평가는 적절치 않다. 하지만 만약 모든 질문에 그렇다고 대답할 수 있다면, 비록 프로그램의 준비가 미흡하다 해도 임팩트 평가를 통해 중요하고 시의적절한 정책 관련 의사결정에 도움이 되는 정보제공이 가능하다. 특히 프로그램 진행과정에서 임팩트 평가자가 정책 입안자와 긴밀히 협력하는 경우에는 더욱 그러하다.


4. Not Now: 임팩트를 평가하기에 너무 늦은 경우

프로그램이 이미 충분히 확장되었고 더 이상의 확장계획이 없을 때 비로소 임팩트 측정에 대한 요구가 생기는 경우가 종종 있다. 이런 경우에는 이미 너무 늦었을 가능성이 높다. 이미 프로그램이 실행되기 시작했다면 개인, 가정, 또는 마을 수준에서 실험그룹과 통제그룹에 대한 무작위 할당이 곤란하다. 무작위 할당이 아닌 방식으로 대조군을 만들 수 있지만, 이 역시 쉽지 않고 비용도 상당히 많이 든다. 이는 또한 그룹 간 비교 결과에 대한 신뢰도를 떨어뜨리므로, 결국 임팩트 평가결과의 설득력에 문제가 생긴다. 


대안 : 향후 확장에 대한 임팩트 평가 계획을 세운다. 프로그램이 다른 곳으로 확장될 가능성이 있는가? 만약 그렇다면 임팩트 측정에 적절한 시기를 판단하기 위해 계속 프로그램을 주시하라. 만약 조직 차원의 학습 및 개선의 결과로 프로그램이 크게 변경된 경우라면 그때가 오히려 임팩트를 평가하기에 적기일 수 있다.


5. Not Feasible: 자원이 너무 제한적인 경우

자원제약은 두 가지 측면에서 임팩트 평가의 가능성을 훼손할 수 있다. 프로그램 규모가 너무 작거나, 자원이 부족하여 수준 높은 임팩트 측정이 곤란한 경우이다.


프로그램의 규모가 너무 작은 경우, 데이터 수도 작아진다. 임팩트 사이즈를 표준편차로 나누어 통계적 유의성을 검증하게 되는데, 데이터 숫자가 적으면 일반적으로 표준편차가 커지게 된다. 이 경우 임팩트 사이즈가 매우 크지 않다면 통계적으로 유의한 임팩트를 발견할 가능성이 낮아진다. 따라서 임팩트 사이즈가 매우 크지 않다면 임팩트를 증명하기 어려울 가능성이 높다. 사실 매우 큰 임팩트를 창출하는 프로젝트는 그리 많지 않다. 더군다나 모호한 결론을 내리는 임팩트 평가는 아예 평가를 하지 않는 것보다 못하다. 통계적 유의성을 찾지 못한 경우 그것이 임팩트가 정말 없어서인지 아니면 임팩트가 있었지만 데이터 수가 너무 작아서 유의성을 찾지 못한 것인지 불확실하다. 따라서 모호한 결론을 내릴 수밖에 없다. 더 많은 사람들을 돕기 위해 사용될 수 있었던 돈을 임팩트 평가에 썼는데 결국 거기서 아무것도 배울 것이 없다면 큰 낭비일 수밖에 없다.


마찬가지로 수준 높은 임팩트 평가에 필요한 예산이 충분치 않다면 아예 평가를 하지 않는 것이 나을 수 있다. 예산이 부족한 경우 표본 규모를 너무 축소하거나, 측정한 것을 지나치게 각색해야 할 수도 있다. 또한 평가 프로토콜이 부실하게 실행될 위험 역시 높다.


대안 : 사업 규모가 제한적인 경우 임팩트와 관련된 질문에 억지로 응할 필요가 없다. 대신 다른 옵션을 고려해 볼 수 있다. 첫째, 질문과 관련된 대부분의 답을 임팩트 연구와 관련된 기존 문헌을 통해 손쉽게 구할 수도 있다. 다른 임팩트 평가 연구에서 그 문제에 대해 무엇을 말하고 있는가? 기존 연구가 수행된 맥락을 보고 당신의 상황에 얼마나 적용 가능한지 검토하라. 기존 연구에서 사용된 개입방법은 당신의 것과 얼마나 유사한가? 당신의 접근법이 효과적일 수 있음을 보여주는 기존 연구가 있는지 확인해 보라. 만약 당신에게 유용한 시사점을 제공하는 기존 연구가 없다면,  적절한 모니터링을 통해 사업의 실행과정을 추적하고, 정기적인 피드백을 받고, 사업운영 데이터를 수집하여 활용할 수 있다.


예산이 제한적이라면 무엇이 평가의 비용을 높이는 요소인지 고려한다. 특히 가구 대상 조사와 같은 데이터 수집은 평가 비용에 가장 큰 영향을 미치는 요소이다. 무작위 통제실험 방식에서 무작위 추출 자체는 사실상 비용이 거의 들지 않는다. 비교적 비용이 크게 들지 않는 행정적 데이터를 통해 중요한 임팩트 질문에 대답할 수도 있다. 예컨대 저축 프로그램의 임팩트를 검증할 경우 물론 많은 사람들은 해당 프로그램이 수혜자의 건강 및 교육을 위한 지출, 농업 및 사업에 대한 투자, 술담배 등의 소비 등에 어떤 영향을 끼쳤는지 알고 싶어할 것이다. 그러나 단순하게 저축 프로그램을 통해 수혜자들이 금융기관에 저축한 금액이 얼마나 커졌는지만 보더라도 해당 프로그램의 성과를 판단하는 데 큰 도움이 된다.


이러한 대안이 실행하기 어렵거나 만족스럽지 않다면, 사업수행 과정을 추적하고, 쓸 만한 사업운영 데이터를 수집하는 데 집중한다. 물론 임팩트 평가에 필요한 자금을 추가 조달하는 것도 한 가지 방법이다. 당신이 다루고 있는 이슈에 대한 정보의 갭이 크다면 자금 제공자 역시 임팩트 측정 결과에 흥미를 보일 수 있다. 예컨대 아직 검증되지 않은 영역에서 광범위하게 프로그램을 수행하는 경우나, 갈등 상황에서 새로운 접근 방식을 시도하고 있는 경우가 있다.


6. Not Feasible: 변화이론상 중요한 간접효과의 식별이 어려운 경우

많은 프로그램의 변화이론에서 간접효과가 중요한 역할을 담당한다. 예컨대 농업정보 제공 프로그램은 일부 농부들에게 새로운 기술을 가르치고, 그들이 정보를 가족 및 이웃과 공유하기를 바란다. 보건 프로그램의 경우 수혜자들을 전염병으로부터 보호함으로써 그들과 접촉하는 다른 사람들 역시 질병에 걸릴 가능성이 낮아지도록 돕는다. 


여기서 간단한 질문을 통해 반드시 확인할 것이 있다. 이 프로그램에 있어서 간접효과가 중요하다는 주장은 합리적으로 믿을 만한 것인가? 그리고 가능하다면 이를 뒷받침할 증거가 있는가?


간접효과가 정말 중요하다면 이를 무시하는 것은 연구결과의 정책적 시사점을 크게 왜곡할 수 있다. 만약 그렇다면 간접효과를 무시하는 연구는 심각한 결함을 가지게 되며, 이런 경우에는 차라리 임팩트 측정을 하지 않는 것이 낫다.


간접효과를 정확히 측정하는 것은 프로그램의 진정한 임팩트를 이해하기 위해 중요하다. 학생들을 위한 구충 프로그램의 임팩트를 측정한 사례를 보자. 2004년 에드워드 미구엘과 마이클 크레머가 경제학 최고의 저널 중 하나인 이코노메트리카Econometrica에 구충 프로그램의 임팩트에 대한 중요한 연구를 게재하기 전까지, 기존의 연구자들은 학교에서 시행하는 구충 프로그램의 임팩트를 검증하기 위해 학교 내부에서 무작위 방식을 사용해 구충약을 받는 학생들과 받지 않는 학생들을 분류했다. 그러나 이런 방식의 연구는 같은 학교 내에서 함께 공부하는 학생들 사이에 구충약의 지급에 따른 간접효과가 존재할 수 있음을 무시한 것이다. 맨발로 운동장에서 뛰노는 어린이들 사이에서는 약을 받은 학생 그룹(실험집단)과 그렇지 않은 학생 그룹(통제집단) 간에 구충의 전염이 이루어질 수 있다. 실험집단의 복약으로 인한 구충 감소로 인해 이들과 함께 생활하는 통제집단 역시 그만큼 질병에 대한 노출이 작아지기 때문이다. 어떤 학교에서든 약을 받지 않는 통제집단도 약을 받는 실험집단에 의해 간접적으로 치료를 받게 되는 셈이다. 결국 통제집단도 어느 정도 치료를 받게 되는 간접효과가 발생했다고 볼 수 있다. 이런 간접효과가 매우 커서 직접효과와 크기가 비슷하다고 가정해보자. 직접효과와 간접효과의 크기가 비슷하다면 양쪽 집단에서 모두 건강과 학습성과가 비슷한 정도로 향상되어서 두 집단 간 차이가 통계적으로 의미가 없을 수 있다. 실제로는 구충 치료가 아이들 건강이나 학습성과 향상에 큰 영향을 미쳤다고 하더라도, 실험그룹에서 약을 받은 어린이 그룹(직접효과)와 통제그룹에서 약을 받지는 않았지만 간접적으로 치료효과를 얻은 어린이 그룹(간접효과)을 비교 시 구충 프로그램이 전혀 효과가 없다는 결론이 도출될 수도 있다. 이를 고려하여 미구엘과 크레머의 구충 프로그램 연구는 명시적으로 간접효과를 측정했다. 이 경우 구충 프로그램의 비용-편익 계산 결과가 근본적으로 달라지며, 간접효과까지 고려하면 구충약 제공의 편익이 상당히 커지는 것으로 나타났다.


대안 : 간접효과를 측정하는 것은 효과적인 임팩트 평가의 장애물이 아니라 오히려 좋은 평가가 가져야 할 주요 특징 중 하나로 볼 수 있다. 만약 간접효과가 무시된다면 잘못된 측정이 이루어지게 되므로 결국 옳지 않은 결론을 도출할 수 있다.


간접효과를 다루고자 고려할 때, 첫 번째 과제는 기존 연구와 이론을 검토하여 이러한 문제가 얼마나 중요한 영향을 미칠 것인지 예측하는 것이다. 만약 간접효과의 영향이 상당해서 측정이 필요하다면, 이때 선택할 수 있는 두 가지 접근법이 있다. 첫 번째는 간접효과를 연구설계에 포함시키는 것이다. 예컨대 두 개의 통제 그룹을 만들고, 이 중 하나는 간접적으로 치료에 노출되고 다른 하나는 전혀 치료에 노출되지 않도록 디자인할 수 있다. 이 경우 두 개의 통제그룹을 비교해보면 간접효과의 측정이 가능하다. 두 번째는 간접효과에 대한 데이터를 수집하는 것이다. 참가자들에게 누구와 자주 대화하는지 물어보고, 이를 바탕으로 개인의 사회관계망을 파악하여 간접효과의 경로를 추정할 수 있다. 그러나 만약 간접효과가 크다고 판단되는 상황에서 이를 정확하게 측정할 수 없다면 임팩트 평가를 하지 않는 것이 낫다. 진정한 임팩트가 간접 효과 때문에 가려져 진정한 임팩트가 있음에도 불구하고 간접효과 때문에 유의미한 임팩트가 없는 것으로 보고된다면 이는 자원낭비이다.


7. Not Feasible: 프로그램이 처한 상황이 지나치게 혼란스러울 경우

예컨대 대부분의 재난구조 상황에서 임팩트 측정은 불가능하지는 않지만 매우 어렵다. 재난상황의 변화에 따라 이에 적응하기 위해 사업실행 역시 계속해서 변하기 때문이다. 이런 상황에서 엄격한 실험 프로토콜(연구계획)을 유지하려다 보면 비용은 많이 들면서 사업실행의 품질이 떨어질 수 있다. 이론상 비용이 많이 들지 않는다 하더라도 급변하는 환경하에서 처음의 프로토콜을 준수하는 것은 쉽지 않다. 이는 또한 지원을 가장 필요로 하는 사람들에게 적절한 지원이 가는 것을 방해할 수 있다.


대안 : 사업실행 활동을 추적하고 프로그램을 개선하는 데 유용한 사업운영 데이터를 수집한다. 또한 쓸모 있는 교훈을 줄 수 있는 운영상의 문제점들을 고려한다. 운영 테스트(종종 A/B 테스트, rapid-cycle test, rapid fire test로 불리기도 한다)는 실행 역량 개선에 도움이 될 수 있다. 누군가에게 그가 해야 할 일을 상기시키기 위한 문자 메시지를 보내면 그의 단기적 행동에 영향을 주는가? 그런 문자 메시지는 얼마나 자주, 언제 보내야 하며, 내용은 정확히 어떤 것을 말해야 하는가? 현금과 모바일 송금 중에 어느 쪽이 수혜자들에게 자금을 좀 더 효과적으로 주는 것인가? 한 번에 송금 하는 방식과 나눠서 송금하는 방식은 단기 투자 선택에 어떤 영향을 주는가? 이와 같은 단기적 운영에 관련된 질문은 평가에 유용하다.


8. 실현 불가능: 실행 레벨이 너무 높은 경우

화폐 또는 무역 정책의 변화는 일반적으로 국가 전체 차원에서 발생한다. 국가 레벨에서 정책을 무작위화하여 실행하는 것은 불가능하고 심지어는 우스꽝스럽기까지 하다. 만약 도시의 숫자가 충분하고 도시 간의 파급효과가 그리 큰 문제가 아니라면, 시・군・구 수준과 같은 하위 레벨에서 시행되는 정책은 무작위 방식의 적용이 가능하다. 같은 이유로 옹호 캠페인은 종종 국가, 연방 또는 광역 차원과 같은 높은 레벨에서 이루어지므로 임팩트 평가가 쉽지 않다.


대안 : 의도된 정책의 변화를 설명하는 명확한 변화이론이 필요하다. 그 후 가설에서 암시한 변화가 예상대로 발생하는지 여부를 보기 위해 실행, 피드백 및 사업운영 데이터를 트래킹한다.


9. Not Worth It: 해답이 이미 존재하는 경우

어떤 경우에는 기존의 연구자들에 의해 프로그램의 효과성이 이미 알려져 있을 수도 있다. 이 경우에는 추가적인 임팩트 평가를 하더라도 얻을 것이 별로 없다. 기부자 또는 이사회가 투자성과를 확인하고자 이러한 불필요한 작업을 요청하기도 한다. 조직이 기존의 증거가 충분한지에 대해 확신하지 못하는 경우도 있다. 이때 확증을 얻기 위해 불필요한 임팩트 평가를 수행하는 경우가 발생하기도 한다.


대안 : 임팩트 평가에 대한 요구에 응하는 대신, 기존 연구에서 도출된 임팩트 증거들을 찾아본다. 이 중에서 우리 사업에 적용가능한 것들이 있음을 설득력 있게 주장한다. 2017년 <스탠퍼드 소셜 이노베이션 리뷰>에 메리 앤 베이츠와 레이첼 글레너스터가 기고한 <일반화의 퍼즐The Generalizability Puzzle>이라는 아티클이 이와 관련된 좋은 지침을 제공한다. 요컨대 기존 연구의 적용 가능성을 평가하기 위해 두 가지 조건을 고려해야 한다. 첫째, 기존 연구에서 다루어진 프로그램을 설명하는 이론이 우리 프로그램의 이론과 유사해야 한다. 여기서 ‘이론’은 프로그램 요소들 간의 연결성에 대한 가설을 말한다. 즉 두 프로그램이 동일한 개인적, 생물학적 또는 사회적 메커니즘에 근거하는 경우이다. 둘째, 두 프로그램에서 중요한 상황적 특성들이 상대적으로 명확해야 하며 서로 비슷해야 한다.


기부자 입장에서는 효과적인 솔루션을 확장할 것인지 고려할 때 임팩트 증거보다 중요한 이슈, 즉 사업실행 부분을 고려할 필요가 있다. 모니터링 도구를 활용하여 프로그램 모델에 기획된 내용대로 사업이 실제로 실행되고 있는지 체크해 볼 수 있다. 실행과정에서 활동과 피드백을 분석하면서 기존의 임팩트 증거들이 적용 가능할지 생각해 본다. 이에 대한 좋은 예가 잠비아의 ‘Catch Up’ 프로그램이다. 잠비아의 교육부는 인도 NGO인 프라담Pratham이 개발하고 효과성을 입증한 ‘TaRLTeaching at Right Level’ 접근방식을 채택하고 이를 Catch Up 프로그램을 통해 확장했다. IPA와 J-PALAbdul Latif Jameel Poverty Action Lab의 도움을 받은 잠비아 사업팀은 TaRL 프로그램을 들여오면서 인도에서 얻은 임팩트 증거를 잠비아 상황에 맵핑했고, 이를 바탕으로 파일럿 사업을 실행했다. 이 과정에서 모니터링을 통해 사업의 확장 가능성을 평가했다.


10. Not Worth It: 일반화가 어려운 경우

임팩트 평가는 단순히 어떤 사업이 효과가 있는지를 보는 것이 아니라, 그 사업모델이 왜, 어떻게 작동하는지에 대한 메커니즘을 이해하기 위한 것이다. 만약 임팩트 평가가 ‘왜’라는 질문에 대해서 일반화 가능한 지식을 제공하지 않는다면, 그런 평가는 수행될 필요가 없다. 만약 평가결과가 그 사업을 수행한 기관에게만 유용하고 그 사업의 실행에만 적용 가능하다면 이는 일반화 가능한 지식으로 볼 수 없다. 이러한 원칙은 확장 가능성이 미미한 프로그램에 적용된다. 예컨대 프로그램의 수혜자가 매우 특수한 경우, 또는 프로그램의 희소성이 낮거나 복제 및 확장의 여지가 거의 없는 경우이다. 임팩트 평가 결과의 활용 가능성이 제한적이거나 일회성에 그친다면, 굳이 거기에 비용을 들일 가치가 없다.


대안 : 프로그램의 반복, 확장, 또는 복제 가능성이 미미한 경우 가장 좋은 방안은 프로그램이 원래의 의도대로 실행되도록 실행 과정을 모니터링하고 측정하는 것이다. 만약 ‘왜’에 대한 아이디어가 필요하다면 명확한 변화이론과 초기 결과에 대한 데이터를 포함하는 좋은 실행 데이터를 통해 일정 수준 효과를 창출한  프로그램의 작동원리를 밝혀낼 수 있다. 그러나 이런 상황에서 임팩트를 측정하는 것은 적절치 않다.



올바른 데이터 수집

임팩트 측정은 매력적이다. 이로 인해 프로그램 실행의 모니터링 및 개선 작업─특별해 보이지는 않지만 사실 매우 중요한─이 방해를 받을 수 있다. 사업실행이 부실하다면 아무리 좋은 아이디어를 가지고 있어도 임팩트를 만들 수 없다. 또한 사업실행에 대한 확실한 데이터 없이는 임팩트 평가를 수행하지 말아야 한다. 그럼에도 불구하고 종종 모니터링 데이터의 가치는 과소평가되곤 한다. 그 이유는 모니터링 데이터와 조직의 중요한 의사결정간 연결 고리가 부족하고, 이에 따라 모니터링 데이터가 조직 학습 및 사업의 반복 실행에 도움이 되지 않기 때문이다. 모니터링 데이터를 수집하더라도 이를 내부적으로 활용하지 않는다면 조직 목표 달성에 기여할 수 없다. 이는 결국 낭비일 뿐이다.


임팩트 측정에 대한 외부의 압력으로 인해 사업실행에 대한 모니터링 정보의 가치가 과소평가 될 수 있다. 모니터링 데이터는 종종 프로그램의 임팩트 창출 프로세스를 보여주는 변화이론과의 연관성이 부족하기 때문이다. 이로 인해 기부자와 이사회는 사업 실행 과정에서 수집된 모니터링 데이터의 유용성을 간과하기 쉽다. 하지만 조직에 맞는 시스템이라면 기부자에게 임팩트 창출을 위한 사업진행상황을 보여주는 모니터링 데이터를 생성하고, 의사결정권자에게 프로그램 개선을 위해 실행 가능한 정보를 제공해야 한다. 이러한 시스템을 구축하는 것은 임팩트를 입증하는 것만큼이나 중요하다.


조직에 맞는 모니터링 시스템은 어떻게 개발할 수 있을까? 골디락스 이야기The Goldilocks Challenge를 바탕으로 우리는 CART라고 부르는 원칙을 개발했다. 이 네 가지의 원칙들은 조직의 모니터링 시스템 구축에 유용하다. CART는 신뢰가능성이 높고Credible, 실행가능성이 높고Actionable, 책임성이 높고Responsible, 적용가능성이 높은Transportable 데이터를 의미한다.


신뢰가능성 : 양질의 데이터 수집 및 정확한 분석

신뢰가능성이 높은 데이터는 타당하고, 믿을 만하며, 적절한 방법으로 분석된 데이터를 말한다. 타당성은 측정하고자 하는 핵심개념을 정확하게 포착하는 것을 의미한다. 당연한 이야기이지만 타당성이 높은 데이터를 수집하는 것은 생각보다 까다롭다.


학교교육 또는 의료서비스처럼 명확해 보이는 개념들도 상황에 따라 다양한 방식으로 측정될 수 있다. 사람들이 건강을 위해 취하는 행동을 측정하고자 하는 경우를 생각해보자. 그들에게 의사를 방문한 경험에 대해 질문할 것인가? 아니면 간호사 또는 전통요법 전문가를 방문한 경험에 대해 질문할 것인가? 어떤 식으로 질문하는가에 따라서 당신이 얻는 답도 달라질 것이다. 신뢰가능성이 높은 데이터는 믿을 만해야 한다. 이를 위해 일관성이 중요하다. 데이터 수집 절차에서 데이터가 일관된 방식으로 측정되어야 한다는 것이다. 믿을 만한 저울은 동일한 사람이 몸무게를 여러 번 잴 때 같은 몸무게를 산출한다. 그렇지 못하다면 일관성이 없는 것이다.


신뢰가능성 원칙의 마지막 요소는 적절한 분석이다. 신뢰할 수 있는 데이터 분석을 위해서는 임팩트를 측정해야 할 시점과 그렇지 않은 시점에 대한 이해가 필요하다. 임팩트 측정을 위해서 양질의 데이터를 수집한다고 하더라도 사후가정 접근 방법 없이는 정확한 임팩트 측정 결과를 산출할 수 없다.


실행가능성 : 실제로 사용할 데이터의 수집

신뢰가능성이 아무리 높은 데이터라도 서랍 안에 묵혀둔다면 아무런 의미가 없으며, 프로그램 개선에도 도움이 되지 않는다. 데이터의 중요성을 강조하다 보면 종종 조직이 실제로 사용 가능한 분량보다 더 많은 데이터를 수집하게 된다. 이론적으로는 정보가 많을수록 좋을 것 같지만, 현실에서는 필요 이상의 데이터를 수집하게 되면 오히려 의사결정에 정말 필요한 정보를 찾기 어려워진다.


실행가능성의 원칙은 조직에게 실제 사용할 데이터만 수집하도록 요구함으로써 이런 문제를 해결하고자 한다. 조직은 데이터 수집 시 세 가지 질문을 해야 한다. (1)조사결과를 토대로 우리가 취하려는 구체적인 행동이 있는가? (2)우리는 그 행동을 실행하기 위해 필요한 자원을 가지고 있는가? (3)우리는 실행에 필요한 강력한 의지를 가지고 있는가?


책임성 : 데이터 수집의 비용 대비 편익 고려

데이터 수집의 편리성이 높아짐에 따라 조직은 ‘데이터가 많을수록 좋다’는 잘못된 생각을 가지기 쉽다. 이런 함정을 피하기 위해서 데이터 수집의 편익과 비용을 비교해 보아야 한다. 비용에는 데이터 수집을 위한 직접비용은 물론 데이터 수집 시 발생하는 기회비용도 포함해야 한다. 기회비용은 데이터 수집에 들어간 시간과 돈이 다른 곳에서 사용되어 더 높은 편익을 창출하는 것까지 고려해야 한다는 개념이며, 이때의 ‘기회’는 실제적인 비용이다. 데이터를 제공하는 응답자에게 지급되는 비용은 중요하지만 간과되는 경우가 많다. 또한 책임성 있는 데이터 수집을 위해서는 투명한 프로세스, 개인정보 보호 및 적절한 연구 프로토콜 등을 바탕으로 이해관계자들의 리스크를 최소화해야 한다.


데이터 수집은 분명 비용이 드는 일이지만 그 편익도 고려해야 한다. 데이터 수집을 소홀히 하면 상당한 사회적 비용이 발생할 수 있다. 프로그램 실행과 관련된 데이터가 부족하면 프로그램을 약화시키는 결함들을 찾아내기 어렵다. 프로그램 초반에 문제점을 식별하지 못하면 나중에 고치기는 더 어렵다. 데이터가 부족 하면 비효율적인 프로그램이 계속 운영되고 그 결과 자원이 낭비된다. 기부자 입장에서도 자금이 효과적으로 사용되고 있는지 알 수 없다. 데이터가 충분했다면 학습 및 개선에 보다 헌신된 프로그램 또는 이미 임팩트가 증명된 프로그램에 해당 자금을 지출할 수도 있었다.


적용가능성 : 생태계에 유용한 지식을 창출하는 데이터 수집

모니터링 및 평가를 통해 얻은 가치 있는 교훈들은 보다 효과적인 프로그램 구축에 도움이 될 수 있어야 한다. 결과의 적용가능성을 높이려면, 모니터링 및 평가로 얻은 데이터가 일반화가능성이 높은 상황에서 또는 일반화가능성이 높은 이론을 바탕으로 수집되어야 한다. 즉 무언가가 작동하는 원리를 보여주는 데이터여야 한다. 그러한 이론은 항상 정교할 필요는 없지만, 그 결과가 지속될 수 있는 요건을 제시하거나 데이터 수집의 가이드라인을 제시할 수 있을 만큼 충분히 구체적이어야 한다. 우리가 이미 논의했던 것처럼, 프로그램의 작동방식을 보여주는 기본적인 이론인 변화이론을 명확히 하는 것 역시 임팩트 측정 여부와 측정 시기를 결정하는 데 중요하다.


적용가능성을 위해서 투명성도 필요하다. 조직은 그들의 분석 결과를 기꺼이 외부와 공유해야 한다. 명확한 이론에 기반하여 수집되고 다른 사람들에게 공개된 모니터링 및 평가 데이터는 적용 가능성의 또 다른 중요한 요소인 반복연구를 가능케 한다. 명확한 이론과 모니터링 데이터는 반복연구 기획 시 중요한 정보를 제공한다. 원래 연구와 다른 컨텍스트에서 프로그램을 수행해 보면 소액금융이나 교육과 같은 프로그램의 실행의 개입이 언제 어디서 작동하는지와 관련된 중요한 정책적 시사점을 제공한다. 다양한 상황에서 동일한 개입을 실행한 후 모니터링해보면 어떤 경우에 해당 개입이 잘 작동하는지 또 어떤 지역에서 잘 작동하는지 등에 대한 정보를 얻을 수 있다. 투명성 부족은 실제적인 사회적 비용을 초래한다. 투명성이 없다면 다른 조직은 기존의 연구를 바탕으로 자신들의 프로그램에 적용될 수 있는 교훈을 찾아낼 수 없기 때문이다. 기존의 연구에서 도출된 교훈이나 시사점이 자신의 프로그램에 적용될 수 있을지에 대한 확신을 얻기 어려우므로 결국 스스로 연구를 수행해야 하며, 이는 피할 수 있었던 사회적 비용을 초래한다.



맞춤형 시스템 구축

CART는 데이터 수집의 우선순위 결정 시 유용한 일련의 원칙을 제공한다. 하지만 단순한 데이터 수집만으로는 부족하다. 조직은 데이터와 자신들의 업무를 통합시켜야하며, 이를 위해 조직에 잘 맞는 증거 시스템right-fit evidence system을 개발할 필요가 있다. 조직의 우선순위는 시스템 구축이어야 한다. 첫째, 많은 조직들에게 있어서 임팩트 측정보다는 모니터링 및 성과관리 시스템 개선에 초점을 맞추는 것이 보다 유용하다. 엉터리로 수행된 임팩트 평가 결과보다는 조직에 잘 맞는 증거 시스템이 훨씬 더 신뢰할 수 있고 실행가능한 데이터를 제공한다. 둘째로, 조직에 잘 맞는 증거 시스템은 사회에도 더 큰 도움이 된다. 양질의 운영데이터는 조직의 학습 및 개선에 도움이 된다. 이론과 연계된 투명한 데이터는 어떤 것이 잘 작동하는지, 그리고 어떤 조건하에서 보다 잘 작동 하는지에 대한 일반화 가능한 지식을 얻는 데 도움이 된다. 이를 통해 좋은 프로그램은 복제될 수 있고, 빈약한 프로그램은 퇴출 될 수 있다. 따라서 사회적 차원에서 자원의 효율적 배분이 가능하다. 낭비를 피하고 희소자원의 활용을 극대화하기 위해서는 충분 한 여건이 갖추어졌을 때에만 임팩트 평가를 실행하는 것이 좋다. 적합한 증거를 얻기 위한 첫 번째 단계는 조직 차원에서 실행된다. 프로그램의 학습과 개선을 지원하려면 실행가능성이 높은 증거를 수집해야 한다. 즉 증거가 조직의 의사결정 프로세스에 통합 되어야 한다. 실행가능성이 높은 데이터 관리 시스템은 세 가지 역할을 한다. 올바른 데이터를 수집하고, 데이터를 적시에 유용한 포맷으로 보고한다. 그리고 데이터 활용과 관련된 조직의 역량 계발과 의지 강화에 기여한다.


조직은 다섯 가지 유형의 모니터링 데이터를 수집해야 한다. 이 중 두 가지, 즉 재무 데이터 및 활동/실행결과 트래킹 데이터는 이미 많은 조직에서 수집하고 있으며, 프로그램의 실행 및 관련비용을 추적하여 책무성을 입증하는 데 활용된다. 남은 세 가지 데이터, 즉 타겟팅, 참여, 그리고 피드백 등의 데이터는 상대적으로 덜 빈번하게 수집되지만 프로그램 개선을 위해서는 중요하다.


모니터링 데이터 수집 시 적당한 규모를 결정하기 위해 중요한 점은 외부에서 요구하는 책무성과 내부 관리상의 니즈를 균형 있게 고려하는 것이다. 재무 데이터를 우선적으로 고려할 필요가 있다. 외부에서 요구하는 책무성은 종종 행정 또는 프로그램 운영 수준에서 발생하는 수익과 비용에 중점을 둔다. 책무성을 넘어서 학습까지 이어지려면 비용과 수익 데이터를 현재 진행 중인 프로그램 운영에 직접 연결해야 한다. 이를 통해 프로그램별로 또는 사이트별로 서비스의 상대적 비용을 평가할 수 있다.


많은 조직들이 프로그램 실행에 대한 모니터링 데이터를 수집한다. 여기에는 교육 프로그램의 운영 횟수와 같은 산출 데이터가 포함된다. 그러나 이런 데이터는 프로그램에 대한 명확한 변화이론에 근거한 의사결정 시스템과 분명한 연결고리를 가지고 있지 않다. 명확하고 상세한 변화이론은 조직으로 하여금 프로그램 활동의 핵심 산출물을 정확히 식별하고, 이를 측정할 수 있는 신뢰성 있는 수단 개발에 도움을 준다.


타겟팅 데이터는 ‘누가 실제로 프로그램에 참여하고 있는가?’라는 질문에 답을 제공한다. 즉 조직이 원래 목표로 삼았던 타겟수혜자집단에 잘 도달하고 있는지, 만약 그렇지 않다면 프로그램에 어떤 변화가 필요한지(예: 프로그램 설계, 아웃리치 노력 등) 등을 고려하는 데 도움이 된다. 타겟팅 데이터는 반드시 정기적으로 수집되고 검토되어야 한다. 이를 통해 시의적절한 방식으로 필요한 프로그램 변화 내지 수정작업이 이뤄질 수 있다.


참여 데이터는 타겟수혜자들이 단순히 출석에 그치는 것이 아니라 정말 프로그램을 사용하고 있는지를 측정한다. 활동 트래킹 데이터 수집 후 프로그램이 잘 운영되고 있다는 확신이 생겼다면, 그다음 단계는 프로그램 참여자 관점에서 프로그램이 원래 의도한 대로 작동하고 있는지 검토하는 것이다. 참여 데이터는 프로그램 품질에 대한 중요한 정보를 제공한다. 예컨대 ‘참여자들이 제품 또는 서비스와 어떻게 상호작용하고 있는가?’, ‘그들은 얼마나 열정적인가?’, ‘그들은 프로그램이 제공하는 모든 혜택을 잘 활용하고 있는가?’ 등의 질문에 대한 답을 제공한다.


피드백 데이터는 프로그램에 대한 사람들의 의견을 얻는 것을 말한다. 피드백 데이터는 참여자의 관점에서 프로그램의 강점과 약점에 대한 정보를 제공한다. 참여 데이터가 낮은 참여도를 나타낼 때, 피드백 데이터는 그 이유를 알려주는 정보를 제공할 수 있다. 낮은 참여도는 프로그램 운영 개선을 위해 타겟 수혜자로부터 더 많은 피드백이 필요하다는 신호일 수 있다.



데이터 임파워링(Empowering Data)

실행 가능성이 높은 데이터 시스템을 만드는 데 필요한 또 하나의 근본적 도전은 의사결정권자가 데이터를 사용하여 의사결정을 내릴 수 있도록 임파워링하는 것이다. 임파워먼트는 역량과 헌신을 요구한다. 조직 차원에서의 헌신을 유도하려면 내부적으로 데이터를 공유하고, 직원들에게 데이터 보고에 대한 책임을 부여하고, 배우고 질문하는 문화를 만들어야 한다.


이를 위해 조직은 그들이 수집하는 데이터를 공유할 수 있는 역량을 가져야 한다. 이를 위한 시스템 개발을 위해 막대한 기술개발 투자를 할 필요는 없다. 데이터 공유 시스템은 칠판처럼 단순한 것일 수도 있고 전산화된 데이터 대시보드처럼 근사할 수도 있다. 어떤 방식이든지 간에 모든 구성원이 필요할 때 즉시 데이터에 접근할 수 있게 해주는 가장 간단한 시스템을 찾아낼 필요가 있다.


다음으로는 프로그램 운영 및 일상업무에 데이터 검토 절차를 통합할 필요가 있다. 이는 전혀 복잡할 필요가 없다. 매주 또는 매월 직원회의에서 데이터를 발표하고 이에 대한 논의를 진행할 수 있다. 여기서 중요한 것은 프로그램 매니저와 스태프가 참석한 장소에서 정기적으로 데이터를 검토한다는 점이다.


그러나 정기회의만으로는 조직 차원의 헌신을 유도하고 역량을 구축하기에는 부족하다. 책무성과 학습이 전체적인 과정에 포함되어야 한다. 프로그램 스태프는 데이터를 바탕으로 어떤 프로그램이 원활하게 운영되고 있는지를 공유하고, 미흡한 프로그램의 경우 성과 향상을 위한 전략을 개발할 책임을 가진다. 매니저는 회의에 참석하여 프로그램 담당직원의 이야기를 경청함으로써 조직 차원의 헌신을 보여줄 수 있다. 책무성에 대한 노력은 직원들이 데이터를 이해하고, 설명하고, 이에 대한 대응전략을 개발할 수 있는 역량에 초점을 두어야 한다. 즉 처벌이 아닌 학습과 개선에 초점을 두는 것이다.


실행가능한 시스템의 마지막 요소는 일관성 있는 팔로우업 또는 후속조치이다. 조직은 데이터를 반복적으로 사용하여 프로그램과 관련된 의사결정에 활용해야 한다. 일관된 후속조치가 없다면 직원은 데이터 수집이 중요하지 않다는 점을 금방 알게 될 것이고, 데이터의 신뢰성을 향상시키기 위한 노력을 중단하게 될 것이다.


데이터 수집 및 분석의 개선작업을 단순화하기 위해서 우리는 조직에서 수집하는 모든 모니터링 데이터에 적용해 볼 수 있는 세 가지 테스트 질문을 다음과 같이 제시한다.


- 비용 대비 효과적으로 수집된 데이터가 당신의 프로그램 기획 및 일상적 운영에 관한 의사결정에 도움이 될 것인가?

- 조직이 원래 기획대로 활동을 수행하고 있음을 증명하여 책무성을 높이는 데 데이터가 유용한가?

- 당신의 조직은 데이터의 활용에 대한 조직 차원의 의지가 있는가? 당신의 조직은 데이터 활용도를 높이기 위한 조직구조 구축 투자에 적극적인가?


만약 이 세 가지 질문 중 하나라도 그렇다고 대답할 수 없다면, 당신은 어쩌면 데이터를 수집하지 않는 것이 좋을 수도 있다. 지금까지의 논의가 겉보기에는 임팩트 평가를 반대하는 것처럼 보일 수도 있다. 그러나 우리의 진짜 의도는 엄정한 임팩트 평가가 적절한 시기에 이루어질 때 의사결정자들에게 보다 유용하다는 점을 부각시키기 위한 것이다. 조직이나 프로그램의 입장에서 아직 임팩트 평가를 받을 준비가 되어 있지 않다고 해도, 여전히 그들에게는 의사결정 또는 사업실행 개선을 위해 양질의 데이터가 필요하다. 무작위 평가 결과 즉, 무작위통제 실험에 근거한 임팩트 측정 및 평가 결과와 어떤 프로그램이 효과가 있으며 이제 그 프로그램을 확장해도 좋을 것이라는 결론이 도출되었다면, 명확한 변화이론을 기반으로 하는 훌륭한 모니터링 시스템은 확장된 해당 프로그램의 실행 품질을 보장해 줄 수 있는 중요한 연결고리가 되어 임팩트 측정과 모니터링 시스템을 통한 데이터 수집은 상호보완적 역할을 한다.


거기까지 가는 중간 단계에서 우리의 계획은 학습과 개선을 위한 증거 전략에 초점을 맞추는 것이다. 만약 이 전략이 궁극적으로는 보다 효과적인 임팩트 평가로 이어진다면 더할 나위 없이 좋을 것이다.




> 원문 기사 보기


MARY KAY GUGERTY

MARY KAY GUGERTY는 워싱턴대학교(University of Washington)의 데니얼 제이 에반스 행정대학(Daniel J. Evans School of Public Affairs) 교수이자, 낸시 벨 에반스 비영리&자선 센터(Nancy Bell Evans Center on Nonprofits&Philanthropy)의 책임교수이다. 


DEAN KARLAN

DEAN KARLAN은 노스웨스턴대학교(Northwestern University) 켈로그 스쿨(Kellog School of Management)의 경제, 재무 교수이다. 동대학의 버핏 인스티튜트(Buffett Instiute for Global Studies)의 세계 빈곤 리서치랩(Global Poverty Research Lab)의 공동 책임자이기도 하다. GUGERTY와 KARLAN은 <The Goldilocks Challenge: Right-Fit Evidence for the Social Sector>(Oxford University Press)의 공동저자이다.