최근 ChatGPT가 이슈여서 개인적으로 챗봇에 대한 기술을 공부하고 있다.
이를 비즈니스 모델에 적용할 방법을 고민 하던 중, 가장 큰 문제는 ChatGPT에 입력한 유저의 질문은 그대로 Open AI 사 DB에 그대로 전송되며 유출 된다고 한다.
그래서 삼성, LG와 같은 기업은 ChatGPT의 사용을 금지했었고 잠시 일부 제한 사용을 허용 했음에도 바로 보안 유출 사고가 발생 했다.
그런데 왜 지금까지 의 Chat 시스템엔 이런 문제가 발생하지 않았을까? 그게 궁금했다.
왜냐하면 ChatGPT는 내가 아는 상식과 다르게 OpenAI사 또한 기본적으로 사용자 개인의 입력 정보가 바로 학습되지 않는다 설명 하더라고…? 이는 삼성, LG와 같은 기업이 설명하고 있는 것과 다른 것이다.
콘텐츠
ChatGPT 이용 시 기업 보안 유출
그럼 그냥 삼성, LG 와 같은 기업이 이런 회사에 정보가 ‘전송’ 되는 것 만으로 우려하는 것일까? 그럴 수도 있다. 왜냐하면 정보가 전송 된다는 것 자체가 그 과정에서 유출 경로가 발생 하는 것이니까 말이다.
예시로 우리나라의 대부분 기업은 외부 메일, 외부 클라우드도 사용하지 못하게 한다.
구글 클라우드와 같은 시스템 에서도 분명 ‘개인, 기업 등 고객의 정보는 구글이 확인하지 않는다 설명 한다.’ 즉, 이 부분은 우리가 이용하는 서비스 제공자가 직접 이용하지 않는다 하더라도 보안 유출에 위험이 발생할 것이라 기업은 판단한다는 것이다.
이는 저장 되지 않더라도 외부 서버에 데이터가 전달 되는 과정 에서 중간에 가로채질 확률이 있고 기업에 따라 정책을 위반해서 불법적으로 사용할 가능성도 배제할 수 없다.
그래서 가장 좋은 보안 방법은 애초에 밖으로 유출 하지 않는 것이다.
그래서 ChatGPT 자체를 활용해서 내가 다니는 회사에 적용 시킬 수 있을까? 고민해 봤을 때 당장 떠오르는 것은 없었다. 온프레미스에 직접 설치해서 쓸 수 있는 솔루션, 서비스 들이 이런 면에선 편하지만… 그건 또 ChatGPT를 활용한다 할 수 있을까?
ChatGPT 이전 세대 챗봇 서비스 Dialogflow
그래서 이전 세대의 챗봇 서비스인 Dialogflow도 공부해 보고 있었다. ChatGPT는 보안 이슈를 떠나 기업이 개인적으로 학습 시키고 정해진 답을 만드는 서비스가 아니다. 우리가 전달한 문장의 의도를 파악해 새로운 문장을 만드는 기술에 특화 되어 있다.
사실 대다수의 기업이 원하는 ChatBot은 이런 것이 아닐 것이다. 자신들의 업무를 직원 처럼 입력하면 처리해 주는 인공지능 비서를 원할 것이다. 그런 면에선 오히려 ChatGPT 보단 Dialogflow와 같은 서비스가 아직 경쟁력이 남아있다 생각했다.
Dialogflow는 구글에서 만든 챗봇 AI 플랫폼으로 어떤 질문들이 들어오면 이를 원하는 답변으로 뱉어 낼 수 있게 만들 수 있다. 웹 기반이고 사용법도 간단하다.
그런데 이제와서 Dialogflow를 활용해서 개인적으로 서비스를 만드려고 하니 위에 정리한 내용 처럼 과연 Dialogflow는 보안 이슈에서 자유로운가? 라는 궁금함이 생겨났다.
Dialogflow의 사용자 메세지는 어떻게 저장 되는가?
Dialogflow에 대한 관련 정보는 FAQ를 통해 어느 정도 데이터 취급을 어떻게 하고 있는지 알 수 있었다.
- 구글 Dialogflow를 이용 중에 발생한 데이터는 전송 중 암호화 된다.
- 기본적으로 저장 데이터는 암호화 된다.
- 기본적으로 Dialogflow의 데이터 저장은 Google Cloud 이용 약관을 참고 하면 된다.
그래서 결과적으로 Dialogflow의 저장 데이터는 GCP(Google Cloud Platform)의 이용 약관에 따라 움직인다 이야기 한다. 그 이유는 Dialogflow도 이 GCP 서비스 중에 하나라 그런 것으로 보인다.
정리하면 결국 데이터는 암호화되고 전송되고 약관에 따라 구글이 절대 사적으로 사용하지 않는다. 라 말하고 있다. 그래서 내용만 봤을 땐 위에 언급 된 문제가 그대로 남아 있다.
OpenAI 사 는 오히려 Dialogflow와 달리 사용자 데이터를 ‘저장하지 않는다’ 라고 했음 에도 보안 유출 사고를 언급하고 있다.
그렇다면 왜 ChatGPT만 유독 이런 이슈가 대두될까?
결과적으로 정책, 기술, 저장 방식만의 차이는 아니며, 아마 이는 서비스를 제공하는 방식에 오히려 초점을 맞춰야 될 것 같다.
예를 들자면 우리가 생각하는 ChatGPT의 보안 유출은 기업이 솔루션을 이용해 자신들의 챗봇을 도입한게 아니고 Public 서비스를 이용하는 경우다.
즉, 사내 메일 시스템 안쓰고 네이버 메일과 같은 외부 메일 서비스를 사용하는 느낌인 것이다.
이는 네이버가 원칙적으로 우리 개인 메일을 열어보고 이용하지 않는다 하더라도 대부분의 회사가 보안 위반 항목으로 지정해 놨을 것이다.
그런데 만약 기업이 직접 AWS와 같은 클라우드를 이용할 때 이런 보안 유출을 아예 보장하는 서비스를 구매에 도입하는 경우였기 때문에 이것이 다를 것이다.
애초에 계약한 고객(기업)의 데이터를 보호하고 관리해 줄 것을 확정 짓고 우리도 이 제품에 한해서 클라우드를 이용하기로 결정한 상태 이기 때문인 것이다.
엥? 그게 다라고? 근데 그게 다일 수 있다. 예를 들면 우리가 외부의 회사에 위탁해서 우리 데이터를 관리하는 회사가 있는데 사실 그 회사가 진짜 100% 안해서 이게 허용되는 것일까? 그렇지 않다.
그저 이 관점은 ‘우리가 인지하지 않고 허용하지 않은 서비스에 대해선 어쨌든 외부에 데이터가 전송 되는 것을 막자’ 라는 관점으로 봐야 된다 생각한다.
OpenAI사가 직접적으로 우리 데이터를 유출 시키기 때문에 제한을 두는 것이 아니라, 회사에서 직접 계약하고 도입한 시스템, 서비스를 이용하는 경우가 아니기 때문에 이런 문제가 발생하는 것으로 보인다.
그래서 써도 된다고 안된다고?
이를 확인하려면 가장 좋은 방법은 이런 인터넷 검색 결과로 판단하는 것이 절대 아니다. 먼저 우리 회사에 해당 서비스와 연관된 부서에 연락을 취해서 이런 내용을 먼저 확인 받길 바란다. 이게 진짜 제일 중요하다. 다른 회사가 쓰고 있다고 우리 회사에서 마음대로 쓰면 절대 안된다.
그래서 제일 중요한 건 그냥 회사 정책이다. 내가 아무리 타사 사례를 가져오고 정확한 정보를 가져오면 무엇 하겠는가. 회사에서 안된다는데…
그리고 두 번째로 그 기업 영업팀에 문의 하는 것이다. 이 두가지 모두가 충족되도록 검토하고 확인한 후에 이런 서비스는 이용가능 여부를 판단해야 한다.
결과적으로 허무한 결론일 수 있는데 ChatGPT는 다른 클라우드 시스템과 다르게 우리 데이터를 OpenAI사가 수집하고 이용하지 않는다라는 점을 알게 되었다. 그래서 기술, 정책으로만 회사에서 사용 가능 여부를 검토 할 수 없다는 결론을 내리게 되었다.