광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[머신러닝] 스위스와 미국의 연구원들은 콘텐츠나 네트워크 행동을 분석하는 대신 브라우저와 상호작용하는 방식을 기반으로 웹사이트 광고 자료를 감지하는 새로운 머신러닝 접근 방식을 고안했다.

https://www.unite.ai/a-machine-learning-method-to-block-ads-based-on-local-browser-behavior/

JM Kim | 기사입력 2021/07/28 [00:00]

[머신러닝] 스위스와 미국의 연구원들은 콘텐츠나 네트워크 행동을 분석하는 대신 브라우저와 상호작용하는 방식을 기반으로 웹사이트 광고 자료를 감지하는 새로운 머신러닝 접근 방식을 고안했다.

https://www.unite.ai/a-machine-learning-method-to-block-ads-based-on-local-browser-behavior/

JM Kim | 입력 : 2021/07/28 [00:00]

WebGraph라고 불리는 이 프레임워크는 그래프 기반 AI 광고 차단 접근 방식을 사용하여 원격 측정 시도 및 로컬 브라우저 저장을 포함한 네트워크 광고의 필수 활동에 집중하여 판촉 콘텐츠를 감지하므로 효과적인 회피 기술은 이러한 활동을 수행하지 않는 것뿐이다.  

이전 접근 방식은 WebGraph보다 약간 더 높은 탐지율을 달성했지만 모두 회피 기법에 취약하며, WebGraph는 이 새로운 광고 차단 방법에 직면하여 나타날 수 있는 보다 정교한 가설적 대응을 포함하여 적대적인 대응에 직면하여 100% 무결성에 접근할 수 있다.

 

이 논문은 스위스연방공과대학(Swiss Federal Institute of Technology) 2명의 연구원이 주도하고 캘리포니아대학교 데이비스(Davis) 및 아이오와대학교(University of Iowa)의 연구원들과 공동으로 진행한다.

 

AdGraph를 넘어서

이 작업은 AdGraph라는 Brave 브라우저를 사용한 2020년 연구 이니셔티브의 개발로, 새 논문의 연구원 2명이 참여했다. 

이전 접근 방식의 아키텍처 혁신을 나타내는 점선을 사용하여 AdGraph WebGraph를 비교한다. 출처: https://arxiv.org/pdf/2107.11309.pdf 

 

CNAME 클로킹 

웹사이트 자체 도메인에서 가져온 자료는 도메인 자체가 신뢰할 수 있는 한 '신뢰할 수 있는' 범주에 속한다. 권위 있는 웹사이트의 경우 해당 광고는 필터 기반 광고 차단 목록과 2020 AdGraph 접근 방식에도 영향을 받지 않기 때문에 권위 사이트 자체에서 호스팅하는 것으로 보이는 자료를 특징으로 하는 광고 캠페인을 실행하는 데 가치 있는 프리미엄이 있다.

 

그러나 맞춤 캠페인은 협상이 어렵고 구현 비용이 많이 들고 지난 25년 동안 개발된 네트워크 광고 모델의 핵심 원칙에 반하여 실행된다. , 타사 플랫폼이 호스트 사이트에 직접 코드를 삽입하는 일반적으로 '경매'이다. 키워드 선호도 및 기타 다양한 요인을 기반으로 광고 슬롯을 마이크로 초 단위로 조정한다.

 

거의 모든 광고 차단 시스템이 웹 페이지의 제3자 자료(, '외계인' 도메인에서 호스팅 되는 요소)에 대한 키를 지정하기 때문에 광고주는 지난 5년 동안 CNAME 클로킹 기술에 맞서 싸워왔다. CNAME 클로킹은 추적자가 호스트 사이트의 하위 도메인(: example.com 대신 information.example.com)이 사이트의 진정한 부속물이라고 믿도록 속인다. 그것이 사실인 경우 제3자 광고 제공자와 정렬된 프록시 광고 제공 메커니즘이다.

 

2021 3월 한 연구에 따르면 2018년과 2020년 사이에 CNAME 클로킹 사고가 22% 증가했으며 2020 10월까지 Tranco의 상위 10,000개 웹사이트 중 거의 10%가 최소 하나의 CNAME 기반 추적기를 사용하는 것으로 나타났다.

 

URL에 대한 신뢰 감소 

CNAME 속임수 기술에는 광고 게재 프로세스와 관련된 URL 조작이 포함된다. URL 체인을 신뢰하는 모든 광고 차단 시스템은 조작과 회피의 대상이 된다. 따라서 WebGraph는 특정 금지 또는 허용 URL이 아닌 사용 패턴을 찾기 위해 프로세스에서 제공된 URL(쿼리 문자열, 매개변수 수 및 매개변수 이름 포함)을 무작위로 변경한다.

 

시스템은 광고 제공 아키텍처에서 두 가지 일반적인 구성을 고려해야 한다. 하나는 호스트가 광고주와 직접 공모하는 경우이다. 광고주가 클라이언트의 조작으로 부터 자신을 보호해야 하기 때문에 제한된 협력을 제공하는 두 번째(더 일반적인) 시나리오이다.

 

AdGraph를 포함한 목록 기반 접근 방식에서 광고 제공 시스템에 의한 성공적인 URL 조작은 광고에 '로컬' 출처를 부여하고 따라서 광고 콘텐츠를 체계적으로 차단하려는 거의 모든 시도를 회피하는 거의 완전한 승리이다.

 

서명을 통해 무엇이 남았을까? WebGraph는 대신 웹 추적기, iframe 및 웹 '수신기' 간의 통신과 같은 다양한 반 난독화 된 수단을 통해 정보를 공유해야 하는 광고 시스템의 필요성에 초점을 맞추고 있다. 광고에 대한 웹 측정항목의 이러한 활동에는 쿠키 또는 HTML5 기반 로컬 저장소에 변수를 저장하는 것이 포함된다.

 

WebGraph Mozilla Web Privacy Measurement(OpenWPM 프레임워크)를 사용하여 Firefox에서 이러한 활동을 추적한다. JavaScript 계층의 모든 활동과 네트워크 계층의 모든 나가는 네트워크 요청 및 응답을 캡처한다.

 

이 추가 조사는 AdGraph가 이전에 제안한 그래프 네트워크에 새로운 '정보 흐름' 엣지를 도입한다. WebGraph가 로컬 활동을 기반으로 정보 공유 패턴을 명시적으로 기록하고 수량화 할 수 있도록 하고 광고 서비스 시스템에서 원격 측정 또는 기타 종류의 내부 통신을 위한 출발지 및 도착 URL에 관계없이 말이다.

 

결과 

연구원들은 OpenWPM의 확장 버전을 사용하여 Alexa 상위 100,000개 사이트에서 가져온 10,000개 웹사이트와 1k-100k 사이의 순위가 지정된 9,000개 사이트의 무작위 샘플을 체계적으로 크롤링하여 AdGraph를 기반으로 하는 의사결정 트리 분류기에 결과를 전달하기 전에 그래프 표현을 저장했다. 독창적인 디자인과 인기 있는 광고 필터 목록을 실측으로 사용한다. 이러한 방식으로 핵심 모델의 학습을 위한 데이터 세트가 구성되었다.

 

이 시스템은 92.33%의 정확도로 AdGraph와 비슷한 결과를 얻었다. 그러나 적대적 저항에 대한 새로운 시스템의 복원력은 AdGraph의 거의 완전한 실패율에서 WebGraph의 경우 8%에 불과한 취약성으로 증가한다.

 

향후 방향

이 논문은 광고 네트워크가 WebGraph 접근 방식에 직면하여 탐지를 피하기 위해 시스템을 특히 재설계해야 한다고 주장한다. 이러한 변경으로 인해 타사 광고주와 해당 광고가 게재되는 호스트 사이트 간의 현재 신중한 신뢰 관계에 대한 검토가 필요하다고 제안한다. 

이 백서는 또한 WebGraph가 시스템이 현재 모니터링하지 않는 API를 사용하는 브라우저 지문(Canvas 요소를 통해)과 같은 상태 비 저장 추적 기술을 고려하지 않는다는 점에 주목한다. 연구원들은 WebGraph가 미래에 확장되어 이러한 종류의 상호 작용 및 로컬 저장소 기표도 설명할 수 있다고 제안한다.

 
머신러닝, WebGraph, AI 광고 차단 , 광고 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사