약 97%의 정확도로 광고성 뉴스 필터링하는 시스템
시범 테스트에서 약 97%의 정확도로 광고성 뉴스를 필터링한 이 시스템은 넘쳐나는 광고성 뉴스로 인해 필요 정보 선별에 시간이 많이 걸렸던 고객들의 불편함을 개선하기 위해 적용됐다.
일반적으로 광고성 뉴스는 일부 단어의 교체만으로도 수 많은 광고성 뉴스를 재 생성해내는 특성이 있다.
지금까지의 광고성 뉴스 필터링 기법은 특정 단어 몇 개 만으로 광고성 뉴스를 판별하도록 설계돼 재 생성된 광고성 뉴스를 탐지해내지 못하는 한계가 있었다.
하지만 KB증권의 시스템은 이 같은 한계점을 극복하고자 일 평균 8000여 건 정도 되는 과거 6개월 간의 뉴스 기사를 머신러닝을 통해 학습시켰다. 이에 광고성 뉴스의 일부 단어가 유사한 형태로 변경되더라도 광고성 뉴스로 판별할 수 있다는 장점을 갖고 있다.
이번 개발에서는 뉴스 본문을 구성하는 전체 단어들의 조합을 계산하고 그 구성이 학습과정을 통해 습득된 광고 뉴스의 단어 분포와 유사함을 보일 때 광고 뉴스로 판별하는 것이 주요 알고리즘이다.
또한 기술 확장 차원에서 학습 데이터 관리는 아마존 클라우드 서비스를 활용하고 향후 효율적인 IT서비스 운영을 위해 상호 의존성 없이 교체 가능하고 기능별로 분리된 마이크로 서비스 아키텍처 기술을 접목시켰다.
KB증권은 광고 뉴스의 다양한 변화에 맞춰 광고성 뉴스 필터링 시스템도 지속된 학습과정을 통해 업그레이드 시키고 있다.
하우성 M-able Land Tribe장은 “고객들에게 유용한 정보를 지닌 뉴스만을 제공하기 위해 광고성 뉴스 필터링 시스템을 개발했다”면서 “향후 고객 개인화 서비스 차원에서 관심 가질만한 뉴스를 개인별로 추천하고 주요 뉴스를 그룹핑함과 동시에 요약 제공하는 고차원 서비스로 발전 시킬 계획”이라고 말했다.