back

검색

[유성민] AI 시대, 빅브라더의 출현을 어떻게 막을까

유성민, 연합학습, 블록체인, AI, 개인정보보호

[유성민’s Chain Story] 현재 인공지능(AI)은 데이터 학습을 기반으로 동작한다. 알파고를 떠올려보자. 무수한 기보를 학습하지 않았다면, 이세돌을 이길 수 없었다. 자율주행차도 마찬가지다. 싱크탱크 ‘랜드 연구소(RAND Corporation)’에 따르면, 자율주행차가 사람 운전자보다 20% 이상 운전을 잘하기 위해서는 약 177억200만 킬로미터를 주행해 학습해야 한다. 그리고 가상공간에서 어마한 거리를 달리고 있다. 이러한 사례는 데이터가 인공지능(AI) 시대에 중요함을 보여준다. 이에 따라 기업에는 데이터 활용성이 중요하다. 다행히 정부는 이에 발맞춰 움직이고 있는 듯하다. 1월에 국회를 통과한 ‘데이터 3법’에서 이를 엿볼 수 있다. 참고로 데이터 3법은 개인정보보호법ㆍ정보통신망법ㆍ신용정보법 등에 관한 개정 내용을 담고 있다. 목적은 중복 규제를 없애고 데이터 활용을 넓히는 취지로 발의됐다. 그러나 이러한 활용은 개인정보를 침해하지 않는 범위에서 이뤄져야 한다. 개인식별정보를 익명으로 처리해야 한다. 개인정보보호는 데이터 활용 확대와 함께 중요해지는 추세다. 유럽연합(EU)에서 발의한 ‘개인데이터보호규정(GDPR)’이 대표 사례다. 결국, 데이터를 활용하는 기업 입장에서는 개인 정보를 침해하지 않으면서 데이터 활용하는 것이 중요하다. 연합학습(Federated Learning)은 이러한 요구에 부응하기 위해 등장한 기계학습 방법론이다. #AI 시대, 개인정보는 어떻게 보호하나 기업은 AI 서비스 경쟁력 향상 목적으로 개인으로부터 데이터를 모은다. 이러한 방식은 개인정보 침해뿐만 아니라 빅브라더 문제를 야기한다. AI 스피커 음성 데이터 수집을 예로 들어보자. AI 스피커 제조기업은 서비스 경쟁력 향상 목적으로 사용자로부터 음성 데이터를 수집하고 있다. 그런데 일부 음성 데이터를 사람이 검열하도록 하고 있다. 다시 말해, AI 스피커가 인식한 내용과 실제 음성 명령어를 사람이 대조하게 했다. 이러한 방식은 국내를 비롯해 해외에서 반감을 샀다. 허락도 없이 개인 음성 데이터를 수집해 활용했기 때문이다. 연합학습은 이러한 방식의 문제에 대한 대안으로 떠오르고 있다. 연합학습은 기업이 사용자로부터 데이터가 아닌 학습결과를 수집하는 방식이기 때문이다. 원리는 단순하다. 사용자는 기기 자체에서 데이터를 학습한다. 그리고 이러한 결과는 기업에서 운영하는 중앙 서버로 전송된다. 기업은 이러한 결과를 통합해 AI를 구현한다. 간혹, 연합학습은 ‘온 디바이스 AI’와 혼용된다. 그러나 두 방식은 다르다. AI는 ‘학습’과 ‘구현’으로 나눌 수 있다. 연합학습은 전자에 해당한다. 온디바이스AI는 후자다. 다시 말해, AI 구현이 기기에서 돌아가는 것이 온디바이스AI다. 연합학습은 이제 발을 디딘 상태이다. 아직 일부 기업에서만 연구하고 있다. 엔비디아는 의료 산업의 실증을 중심으로 연합학습 관련 기술을 개발하고 있다. 구글은 자체 개발한 AI 오픈소스인 텐서플로우에서 연합학습 알고리즘을 제공하고 있다. 정리하면, 연합학습은 개인정보침해에 대한 반감을 줄여준다. 데이터3법과 GDPR에도 대응할 수 있게 한다. 그뿐만 아니라 중앙 서버의 AI 학습 부하도 감소시킨다. AI 학습 작업을 사용자에게 위임하기 때문이다. #연합학습이 답이지만, 2% 부족하다 연합학습‘만’으로는 뭔가 부족하다. 익명성과 접근성은 개인정보보호측면에서 중요하게 요구된다. 익명성은 연합학습 방식에 의해서 충족할 수 있다. 반면 접근성은 보증하지 못한다. 학습결과 제공에 있어서 개인정보침해소지 문제는 적다. 하지만 학습결과는 사용자가 어느 정도 소유권을 가지고 있다. 본인의 데이터에서 본인의 컴퓨팅 파워로 만든 결과물이기 때문이다. 따라서 접근성에 제약을 둘 필요가 있다. 그리고 데이터 제공 시 대가가 수반돼야 한다. 이러한 요구에 블록체인의 토큰 보상 개념을 활용할 수 있다. 이는 사용자가 연합학습에서 학습결과에 관한 주권을 가지고 토큰 거래를 할 수 있게도 한다. 소유권 이점만 있는 것이 아니다. 학습모델 신뢰성도 높여준다. 사용자는 본인의 학습결과에 전자서명할 수 있다. 그리고 기업은 이러한 서명을 기반으로 학습결과 양질에 따라 점수를 매길 수 있고, 가중치를 달리할 수 있다. 물론, 보상도 달리할 수 있다. 이에 따라 일부 사용자는 더 많은 보상을 위해 양질의 결과물을 제공하려 할 수 있다. 이는 기업이 정확한 학습모델을 만들게 함으로써 AI 경쟁력을 향상한다. 실제로, 블록체인과 연합학습 융합은 종종 언급되고 있다. 경희대학교는 논문을 통해 ‘FL체인’이라고 불리는 블록체인 기반 연합학습을 제안했다. 연세대학교도 마찬가지로 ‘블록FL’이라는 시스템을 소개하면서 블록체인과 연합학습의 아키텍처를 제안했다. DML코인은 블록체인 기반 분산화된 기계학습 프로토콜을 목표로 하는데, 블록체인과 연합학습을 결합한 것이다. 콘센시스헬스(ConsenSys Health) 또한 의료 데이터 보호 목적으로 블록체인 기반 연합학습을 제안했다. #AI와 블록체인의 융합, 데이터에서 학습결과로 AI와 블록체인 융합에 관한 연구 필요성이 제기되고 있다. 두 기술이 각각 가지고 있는 효용성이 시너지를 발휘할 것으로 기대하기 때문이다. 작년 11월 한국블록체인학회는 AI와 블록체인 융합 연구 촉진을 목적으로 한국인공지능학회와 함께 ‘인공지능과 블록체인이 융합하는 2019 학습대전’이라는 학술대회를 열었다. 기존 융합 방식은 앞서 살펴본 바와 비슷하다. 주체만 다를 뿐이다. 기존에는 데이터를 중심으로 AI와 블록체인이 융합하는 형태다. 블록체인이 AI가 학습하는 데이터에 신뢰성을 부여한다. 그뿐만 아니라, 사용자가 데이터 제공 대가로 토큰을 받게 한다. 한계점도 존재한다. 그건 바로 ‘빅브라더’ 발생 가능성이다. 기업은 사용자가 토큰을 대가로 무수히 많은 데이터를 모을 수 있기 때문이다. 이는 조지 오웰(George Orwell)이 우려하는 사회 통제 악용 위험으로 넘어가게 한다. 따라서, 새로운 접근법이 요구된다. 그리고 새로운 접근법은 바로 앞서 봤듯이, 학습결과를 중심으로 한 두 기술의 융합이다. 기존 1.0시대에는 데이터를 중심으로 한 융합이었다. 그리고 추후 등장할 2.0시대에는 학습결과를 중심으로 한 AI와 블록체인 융합이 필요하다. 그러기 위해서는 연합학습이 조금 더 발전해야 할 것으로 보인다. 유성민 IT 칼럼니스트

조인디 logo
j o i n
d

Article Title

  • J loading image
  • O loading image
  • I loading image
  • N loading image
  • D loading image

RE:CENT