본문으로 바로가기 본문으로 바로가기 대메뉴로 바로가기
네이버 블로그
인스타그램
유튜브
저작권보호


독일 함부르크 지방법원, 인공지능(AI) 학습 데이터셋(Dataset) 생성을 위한 사진 이미지 복제의 저작권 침해 부정 / 정태호

  • 작성일2024.11.20
  • 작성자김태일
  • 조회수342

독일 함부르크 지방법원,

인공지능(AI) 학습 데이터셋(Dataset) 생성을 위한

사진 이미지 복제의 저작권 침해 부정


정태호 | 경기대학교 지식재산학과 교수


1. 이 사건의 개요

 

 원고인 사진작가 Robert Kneschke는 피고인 비영리사단법인 LAION e.V.가 자신의 사진 중 하나를 이미지로 복제하는 것에 대하여 저작권 침해라고 주장하면서 침해행위 금지 등에 관한 소송을 제기하였다.

 원고는 이미지 대행 제공 플랫폼인 Bigstock의 마이크로 스톡(Stock) 사진 웹사이트를 통해 자신의 사진을 업로드하여 제공해 왔다. 원고가 사진을 이용할 수 있는 비독점적 권리를 라이선스로써 부여한 해당 플랫폼의 사진 웹사이트에는 제한 사항: (...) 18. 자동화된 프로그램, 애플릿(Applets), (Bots) 또는 이와 유사한 것을 사용하여 ... .com 웹사이트 또는 그 안의 콘텐츠에 접근하는 것은, 예를 들어 콘텐츠 다운로드, 인덱싱(Indexing), 스크래핑(Scraping) 또는 웹사이트의 콘텐츠 캐싱(Caching)을 포함하여 어떠한 목적이든 금지된다.”와 같이, 사진 이미지를 자동화 프로그램에 이용할 수 없다는 공지 내용이 이용자들이 읽을 수 있도록 이용약관에 기재되어 있었다.

 피고는 인공지능(AI) 학습을 위해 585천만 개의 이미지와 텍스트가 쌍으로 구성된 데이터셋(Dataset)을 제공하고 있었다. 이러한 데이터셋을 만들기 위해 피고는 미국의 비영리 조직인 Common Crawl의 기존의 데이터셋을 사용하였고, 인터넷상에서 Common Crawl 데이터셋의 이미지를 다운로드했다. 그 후에는 해당 이미지를 확인하여 Common Crawl 데이터셋의 이미지 콘텐츠 텍스트에 대한 설명이 이미지에서 보이는 콘텐츠와 일치하는지 확인했다. 여기서 텍스트 설명과 이미지 콘텐츠가 일치하지 않는 이미지는 필터링하여 삭제했고, 나머지 이미지의 경우에는 이미지 위치의 URL과 이미지 설명인 메타데이터를 추출하여 새로 생성한 데이터셋인 ‘LAION-5B’로 전송했다. 피고는 해당 데이터셋을 인터넷에서 공개적으로 접근 및 이용 가능한 이미지에 대하여 하이퍼링크가 있는 표의 형태로서 공중에게 무료로 제공했다.

 피고는 원고의 분쟁 대상 사진의 이미지 파일을 이상과 같은 Bigstock이라는 이미지 대행 제공 플랫폼의 웹사이트에서 다운로드하여 분석했고, 그 후 추출된 메타데이터가 ‘LAION-5B’라는 해당 데이터셋으로 전송된 것이었다.

이에 따라 원고는 피고의 해당 데이터셋에서 자신의 사진 이미지를 삭제해달라고 요청했지만, 피고는 공중에게 제공하는 방식이 인터넷에서 공개적으로 사용할 수 있는 이미지 파일에 대한 링크가 포함된 데이터베이스만 유지한 것이라고 하면서 사진의 사본 보유를 부인했다.

이에 대하여 원고는 동의 없이 피고의 데이터셋에 있는 자신의 사진 이미지가 AI 학습데이터의 목적으로 사용된 것에 대해서 피고의 저작권 침해를 주장하면서 TDM(Text and Data Mining)에서의 저작권에 대한 제한이 적용되지 않는다고 그 근거를 언급하였다.

 

 

2. 이 사건에서의 법적 분쟁의 주요 사실

 

 여기서 이 사건의 법적 분쟁의 대상이 되는 주요 사실은 이미지 영역에서 생성 AI 모델을 학습시키는 데 사용되며 공개적으로 접근이 가능한 데이터셋인 ‘LAION 5B’를 만드는 맥락에서 원고의 사진 이미지를 사용한 것이었다. 그러나 해당 데이터셋에는 이미지가 포함되어 있지 않고 인터넷의 다른 곳에서 찾을 수 있는 이미지에 대한 하이퍼링크만 있었다는 특성도 보인다.

이러한 주요 사실을 근거로 하여 함부르크 지방법원은 이하와 같은 내용의 판결(이하, “대상 판결이라 함)을 선고하였다.

 

3. 대상 판결의 주요 내용

 

(1) 원고의 주장

 원고는 이상과 같은 분석 프로세스의 맥락에서 복제가 불법이라고 생각하고 피고가 사진을 복제하거나 AI 학습 데이터셋을 만드는 목적으로 복제하도록 하는 것은 원고의 저작권 침해라고 주장하였다.

 

(2) 피고의 주장

 피고는 독일 저작권법(UrhG) 44b, 60d조의 TDM에서의 예외에 근거하여 저작권 침해가 아님을 주장하였다. 즉 비영리 기반으로 운영되고 과학 연구의 진흥에 전념하는 피고에게는 TDM 프로세스의 범위 안에서의 복제가 허용되며, 피고의 행위는 저작권법(특히 제60d)에서의 저작권 침해의 예외에 해당한다고 피고는 주장하였다.

 

(3) 판결의 내용

 

일시적 복제 여부에 관한 판단

 법원은 우선 적법한 이용을 통한 저작권의 제한에 관하여 제6절 제1에 규정되어 있으며 일시적이고 부수적인 복제 행위를 허용하는 독일 저작권법 제44a의 적용 가능성을 검토했다. 법원은 이미지-텍스트 쌍을 분석할 목적으로 복제가 구체적이고 영구적으로 수행되었기 때문에 해당 규정에서의 일시적 복제에 관한 저작권의 제한이 현재 이 사건에는 적용되지 않는다고 판단했다. 즉 저장은 일시적인 것이 아니라 의식적으로 프로그래밍되고 적극적으로 제어되었고, 또한 이미지를 다운로드하는 것은 단순히 분석에 수반되는 2차적 단계가 아니라 주로 분석 목적을 달성하는 독립적인 프로세스였다고 보고 법원은 독일 저작권법 제44a조의 적용을 부정하였다.

 

통상적(상업적) 목적의 TDM 및 기계 판독 가능한 이용 제한 문구에 관한 해석

 독일 저작권법 제44b의 적용 가능성과 관련하여 법원은 이 사건에서의 데이터셋을 만들기 위한 분석은 이미지 콘텐츠와 텍스트 설명 간의 일치성 등에 관한 상관관계를 얻는 것을 목표로 하므로, 여기서의 복제가 기본적으로 독일 저작권법 제44b조 제1에 따른 TDM에 해당한다고 판단했다. 그리고 독일 저작권법 제44b조 제2의 통상적(상업적) 목적의 TDM에 관한 저작권 제한 규정이 충족된 것으로 보아 피고의 복제 행위에는 문제가 없다고 보았다. 그러나 법원은 저작권법 제44b조 제3에 따라 사진 이미지 대행 제공 플랫폼의 이용 제한에 관한 이용유보의 가능성이 있기 때문에 이러한 제한 규정의 적용에 의문을 표명했다. 즉 해당 사진 이미지 대행 제공 플랫폼의 웹사이트에 작성된 약관에서는 웹스크래핑을 비롯한 자동화된 접근을 금지했다. 그런데 이러한 이용 제한에 관한 이용유보가 저작권법 제44b조 제3항에 따른 유효한 이용유보로 간주 될 만큼 충분히 구체적이고 기계 판독이 가능한 방식으로 작성되었는지에 대해서는 의문점이 제기되기도 하였으나, 법원은 일단 이용유보에 관한 법적 요구사항의 준수가 명확하게 구체적으로 선언되었다고 보았으며, ‘자연어로 이러한 이용유보를 정확히 이해할 수 있는 기술적 능력이 현재 충분히 있다고 보이므로, ‘기계어가 아니라 자연어로 된 이러한 이용유보의 문구도 기계가 판독이 가능한 것으로 해석할 수 있다고 판단하였다.

 

과학적인 연구 목적의 인정

 궁극적으로 법원은 과학적인 연구 목적으로 TDM을 허용하는 독일 저작권법 제60d의 제한이 이 사건에 적용되므로, 앞서 다룬 동법 제44b조에 대한 최종적인 검토가 불필요하다고 결정했다. 피고는 과학적인 연구 목적을 가진 비영리법인으로 활동했으며 어떠한 상업적 목적도 추구하지 않았다. 이 사건 관련 데이터셋이 연구용으로서 무료로 제공되었기 때문에 법원은 앞서 검토한 동법 제44b조의 규정에 관계없이 복제 행위를 다루는 독일 저작권법 제60d조에서 요구하는 사항을 최종적인 판단의 근거로서 확인했다.

결국 피고인 LAION e.V.의 이 사건에서의 분쟁 대상이 된 데이터셋을 과학적인 연구 목적으로 인정하여, 저작권법상 TDM에 관한 예외 규정의 적용을 확인했고, 이에 따라 최종적으로 법원은 AI 학습 데이터셋 생성을 위한 이미지 복제가 독일 저작권법 제60(d)에 따른 TDM에 해당한다고 보아 저작권 침해를 부정하는 판단을 하였다.

 

 

4. 대상 판결의 검토

 

 이상과 같이 함부르크 지방법원은 피고인 LAION e.V.가 원고인 Robert Kneschke의 사진 이미지를 데이터셋 생성에 이용한 것이 독일 저작권법 제60d조에 따른 저작권 침해 예외의 적용이 인정된다고 판결했다.

따라서 대상 판결을 통해 피고는 독일 저작권법 제60d조에 따른 저작권 침해의 예외 혜택을 받았다고 볼 수 있다. 이에 관하여 피고가 학습 데이터셋을 무료로 공개하기 때문에 해당 데이터셋의 생성을 비상업적이고 과학적인 연구를 위한 것으로서 대상 판결이 판단한 것이라고 볼 수 있다.

결국 이상과 같은 대상 판결을 통해 다음과 같은 내용들을 확인할 수 있다. 첫째, 일시적이거나 부수적이지 않은 복제 행위는 독일 저작권법 제44a조의 제한 사항에 포함되지 않는다. 따라서 이 사건처럼 분석 목적으로 저작권이 있는 콘텐츠를 대상으로 프로그래밍하여 저장하고 처리하는 것은 동법 제44a조의 의미 내에서의 일시적이거나 부수적인 이용이 아니라고 보아야 할 것이다. 둘째, 독일 저작권법 제44b조 제2항의 제한 규정은 TDM을 위한 디지털 저작물의 복제를 허용한다. 다만, 이것은 동법 제44b조 제1항에 따라 패턴, 추세 및 상관관계에 대한 정보를 얻기 위한 자동 분석 목적에 부합하는 경우에 한한다. 즉 이미지-텍스트 관계와 같은 작업 구성요소 간의 상관관계를 인식하는 것은 저작권의 제한을 받지 않고 복제 등을 할 수 있다는 일종의 특혜를 부여하는 적격 요건이 된다고 볼 수 있다. 셋째, 동법 제44b조의 복제가 허용되는 상관관계에는 저작물의 지적인 콘텐츠를 반드시 이용할 의도 없이 저작물의 구성요소 간의 상관관계를 획득하는 것도 포함된다고 볼 수 있다. 넷째, 이상과 같은 TDM 관련 저작권의 제한 규정의 적용을 배제하려면, 동법 제44b조 제3항의 의미 내에서 이용제한(이용유보)에 관한 약관을 기계가 판독이 가능한 방식으로 명시적인 선언을 해야 한다. 이러한 약관의 문구는 TDM에 대한 제한 사항으로 자동으로 명확하게 인식될 수 있도록 구체적으로 표현되어야 하는데, ‘기계어로 표현되는 것 뿐만 아니라, ‘자연어로 표현되더라도 기계가 판독하여 이해 가능한 기술적 상황이라면 이러한 약관 문구의 효력을 인정할 수 있다는 것을 확인할 수 있다. 즉 지금까지 저작권법 제44b조에서 요구하는 기계가 판독이 가능한 이용약관에 자연어선언이 충분한지 여부에 대해 논란이 있었는데, 함부르크 지방법원이 대상 판결을 통해 이에 대하여 정리하는 판단을 하였다고 볼 수 있다. 결국 대상 판결은 AI 애플리케이션이 이미 자연어를 이해하고 처리할 수 있으므로, 여기에는 자연어로 작성된 약관을 해석할 수 있는 AI 시스템도 포함된다는 점을 고려하여 이와 같은 판단을 하였다고 볼 수 있다. 마지막으로 다섯째, 독일 저작권법 제60d조의 제한 규정은 TDM을 위해 저작권으로 보호되는 저작물의 복제를 허용하는데, 다만, 이러한 작업은 비영리 연구기관에 의해 과학적인 목적으로 수행되고 상업적 목적은 추구되지 않아야 한다는 것을 확인할 수 있다. 그리고 이에 따라 만들어진 데이터셋을 연구 목적으로 대중에게 공개한다고 해서 해당 규정의 이러한 제한의 적용이 배제되는 것은 아니라는 점도 아울러 확인할 수 있다.

 한편으로 대상 판결에서의 판단 과정에서 기존에 독일 저작권법 제44b조 및 동법 제60d조의 제한 사항을 만들 때 AI를 고려하지 않았기 때문에 TDMAI 학습 데이터셋 생성에는 적용되지 않는다는 반론이 있기도 하였다. 그런데 이러한 반론에 대해서는 유럽 인공지능법(AI ACT) 53조 제1(c)DSM(Digital Single Market) 지침4를 참조 및 언급하면서 인공지능 학습을 위한 데이터셋의 생성도 TDM에 대한 저작권의 제한(예외)에 속한다는 점을 강조한 것을 근거로 하여 법원에서 대상 판결의 내용과 같이 판단을 한 것이라고 볼 수 있다. 따라서 이 사건에서의 AI 학습 데이터셋의 생성에도 TDM에 대한 저작권의 제한 규정이 적용될 수 있다는 설득력이 있는 논리를 제공해 준 점도 대상 판결의 의의로 볼 수 있다.

 

 

5. 대상 판결의 시사점

 

 대상 판결은 함부르크 지방법원은 하급심이기는 하지만, AI 학습 데이터셋에 대해서 독일 저작권법에 구현된 DSM 지침 제3 및 제4조에서 규정된 저작권 침해에 대한 TDM 예외의 적용에 관하여 유럽 최초의 판결을 선고했다는 데 그 의의가 있다. 즉 대상 판결은 AI 학습 데이터셋의 생성과 관련하여 피고의 접근 방식의 합법성을 확인하고 저작권 침해를 주장하였던 원고의 주장을 기각했다.

함부르크 지방법원은 이 사건의 저작권이 있는 사진 이미지의 복제가 불법적인 복제에 해당한다는 점을 발견하지 못했다. 즉 해당 법원은 피고인의 행위가 과학적 연구 목적의 TDM에 관한 독일 저작권법 제60d조의 저작권의 제한 사유에 따른 것이라고 판단했다. 해당 법원에 따르면, 학습데이터를 추출하기 위한 목적으로 이미지를 복제하는 것은 법적인 책임에 대한 면제 조항의 의미 내에서 TDM이라고 보았는데, 이에 따라 이러한 대상 판결은 그 이후의 생성형 AI의 후속 학습도 이러한 예외에 포함되는지 여부에 관한 검토의 여지를 열어 두었다는 점에서도 그 의의를 찾을 수 있겠다.

 한편으로 대상 판결은 과학적 연구의 맥락에서 공개적으로 접근가능한 데이터를 합법적으로 사용할 수 있는 중요한 기반을 마련했으며, 앞으로도 오픈소스 이니셔티브(Open Source Initiative)를 촉진하는 데 상당한 기여를 할 수 있음을 확인시켜 주면서, 특히 독일에서 AI 개발을 촉진하는 법적 기반이 될 수 있을 것이라고 긍정적으로 대상 판결의 의의를 보는 견해도 언급되고 있다.

분명히 대상 판결은 관련 분야에서의 역사적 관점에서 중요한 사례이고, 이것은 DSM 지침에 포함된 TDM 예외에 대한 첫 번째 법적인 테스트였으며, 이에 대해서는 아직 최종적인 결론이 내려진 것이 아니라고 보아야 할 것이다. 그런데 대상 판결의 그 법적인 영향력 자체는 매우 제한적일 수 있으며 다른 국가의 법원, 심지어 독일의 다른 법원들도 하급심 판결인 대상 판결과는 다른 결론을 내릴 수도 있을 것이다.

한편으로 대상 판결은 데이터셋의 생성을 위한 TDM의 이용만 다루고 AI의 실제적인 학습 과정에 대해서는 구체적으로 다루고 있지 않아 상대적으로 좁은 범위에서 이루어진 판단이라는 점이 강조되기도 한다. 이에 따라 현재로서는 AI 학습 데이터셋의 제작자가 계속될 AI 관련 저작권 분쟁에서 하나의 작은 승리만을 거두었다고 볼 수도 있다. 따라서 이에 더 나아가서 AI 모델 학습 자체에 대한 유럽연합 내의 소송의 제기는 이 사건의 다음 단계가 될 것이라고 기대되기도 한다.

 그런데 대상 판결이 사진 업계와 더 넓은 창작 커뮤니티의 우려를 불러일으킬 것이라는 견해도 제기되는바, 대상 판결의 판단에 의해 제60d조가 자신의 작품에 대해 가질 수 있는 사진작가 등 창작자의 통제권을 제한하게 되는 결과가 초래된다는 점을 그 이유로 하고 있다.

대상 판결은 AI 학습 데이터셋 생성에 대한 법적인 명확성을 제공하고, 오픈소스 커뮤니티와 AI 연구 발전에 긍정적인 영향을 미칠 것으로 예상하여 볼 수 있다. 그리고 대상 판결은 AI 개발과 저작권법 사이의 균형을 모색하는 중요한 선례가 될 것으로 보인다. 특히 대상 판결은 오픈소스 AI 개발과 과학적 연구 목적의 데이터 이용에 대한 법적 근거를 제공했다는 점에서 가장 큰 의미가 부여될 수 있겠다.

 원고는 대상 판결에 대하여 불복하는 항소를 제기할 수 있는데, 현재까지는 아직 항소 여부를 확인할 수 없지만, 항소가 제기될 경우에는 이에 대하여 어떠한 판단이 새롭게 이루어질지 계속 주의 깊게 그 추이를 살펴볼 필요가 있을 것이다.

공공누리/CCL
이전,다음 게시물 목록을 볼 수 있습니다.
이전글 브라질의 불법복제 대응 현황 악성코드 배포사이트 대응을 위한 이니셔티브 발표 Operation Redirect / 최승수
다음글 이탈리아 정부, VPN·DNS의 위치와 관련 없이 차단을 요구할 수 있는 개정법률안 승인 / 강기봉

페이지
만족도 조사

현재 페이지에 대하여 얼마나 만족하십니까?

평가
  • 담당부서 : 보호전략지원부
  • 담당자 : 이선미
  • 문의전화 : 02-3153-2735