글로벌 미디어 테크 기업 퍼블리시(PUBLISH)가 내부 미디어 혁신 연구소 '퍼블리시랩(PUBLISHlab)'의 공식 사이트를 개설했다고 지난 18일 발표했다.
퍼블리시랩은 첨단 기술을 활용해 독자 참여 개선, 가짜 뉴스 퇴치, 언론사 수익 구조 개선에 필요한 디지털 툴을 개발하기 위해 지난 5월 출범했다.
퍼블리시랩 사이트는 저널리즘 발전을 위한 4개 프로토타입 솔루션 △콘텐츠 추천 기능, △뉴스 정서 분석 툴, △자동 이미지 태그 기능, △퍼블리시투블록체인 툴을 지원한다. 사이트 구축에는 파이썬 기반 웹개발 프레임워크 플라스크(Flask)가 사용됐다.
토큰포스트 주요 기사를 뉴스레터를 통해 만나보세요 (구독하기)
콘텐츠 추천 기능(Content recommender)
콘텐츠 추천 기능은 관련 뉴스를 자동 제안하는 프로토타입이다. 먼저, 1개 이상의 뉴스 피드를 읽어들여 파이썬 기반 구문 분석 모듈 '유니버셜피드파서(Universal Feed Parser)'를 통해 구문을 분석한다.
이어 판다스(pandas)의 데이터 프레임으로 변환시킨다. 판다스는 파이썬 언어로 작성된 데이터 분석·조작하는 소프트웨어 라이브러리다.
자연어 처리 라이브러리 스페이시(spaCy) 및 en-core-sm 영어 모델을 사용해, 무작위로 선정한 뉴스 기사에서 헤드라인을 추출하고, 본문에서 인명, 장소, 단체, 조직 등 명명된 개체를 식별하는 개체명 인식(named-entity recognition.NER)을 수행한다.
끝으로, 파이썬 기반 머신러닝 라이브러리 sci-kit learn에서 지원하는 카운트벡터라이저(CountVectorizer) 및 코사인 유사도(cosine_similarity) 모듈을 활용해 문서 단어 행렬(document-term matrix)을 만들고 헤드라인 유사성을 판별한다.
카운트벡터라이저와 코사인 유사도는 문서 간 유사성을 측정하는 모듈이다. 각각 데이터 값의 횟수, 데이터 값 사이 각도를 기준으로 평가한다.
뉴스 정서 분석 툴(Sentiment analysis tool)
뉴스 정서 분석 툴은 텍스트가 얼마나 긍정적인지, 부정적인지를 기반으로 뉴스 정서 점수를 평가하는 툴이다.
사전 처리 단계에서 사용자가 입력한 텍스트의 주요 용어를 식별하고, 필요시 구글 트랜스파이선 라이브러리를 통해 영어로 변환시킨다.
이어 자동 정서 분석 프로그램 베이더(VADER)를 통해 텍스트 정스를 분석한다. 해당 툴은 부정문, 느낌표, 대문자, 정도 부사, 정서를 표현한 속어, 유니코드 이모티콘 등을 통해 텍스트 정서를 도출해낸다.
해당 프로토콜은 본문 전체 및 문장 단위마다 정서 지수를 매길 수 있다. 문장 색상을 바꿔 정서 점수를 나타낼 수 있다. 뉴스나 제품 리뷰 등에서 긍정적인 표현, 부정적인 표현 등을 잡아낼 수 있다.
자동 이미지 태깅 기능(Automatic image tagger)
자동 이미지 태킹 프로토타입은 딥러닝 이미지 모델을 사용해 이미지에 자동으로 태그한다. 사용자가 업로드한 이미지는 파이썬 기반 머신러닝 라이브러리 파이토치(PyTorch)를 통해 크기 조정, 잘라내기 등의 사전 처리를 거친다.
이어 컴퓨터 비전 모델을 통해 사전 처리된 이미지 속 사물을 식별하고 신뢰도 점수 기반 상위 태그 5개를 만들어낸다.
컴퓨터 비전은 컴퓨터를 통해 인간의 시각 인식 능력을 재현하는 인공지능 기술을 말한다. 퍼블리시는 현재 유일한 옵션인 이미지넷(ImageNet) 기반 컴퓨터 비전 모델 ResNet-50을 사용했다.
해당 프로토타입은 콘텐츠 허브에서 이미지를 검색 가능하도록 만들는 데 사용할 수 있다.
퍼블리시투블록체인툴(Publish-to-blockchain tool)
퍼블리시투블록체인툴 프로토타입은 EOSIS 블록체인에 뉴스 콘텐츠에 대한 색인을 만들 수 있다.
먼저, 뉴스를 ninjs(News in JSON)에서 파생된 블록체인 및 뉴스 미디어 친화적인 형식으로 변환시키고, 결과값을 이오스IO 테스트넷인 정글 테스트넷(Jungle Testnet)에 트랜잭션으로 게재한다.
트랜잭션을 실행하기 전 SHA-256 해싱알고리즘을 통해 콘텐츠를 암호화시키는 것도 가능하다. 해당 기술은 저작권 보호, 저널리즘 투명성 향상, 데이터 손실 및 검열 방지 등 다양한 부문에 활용할 수 있다.
한편, 퍼블리시랩은 4가지 프로토타입 외에도 더욱 컴퓨터 비전 모델과 뉴스 자동화, 뉴스 요약 등 여러 기능을 개발하고 있다. 이를 위해 데이터가 풍부한 분야에서 훈련된 모델을 재사용하는 머신러닝 학습 기법 '전이학습((transfer learning)'을 활용하고 있다.
퍼블리시는 언론 산업의 혁신을 위해 퍼블리시 프로토콜 기반의 미디어 댑 발굴과 유기적인 생태계 성장을 위한 새로운 미디어 표준을 만들어가고 있다. 자체 개발한 미디어 콘텐츠관리시스템(CMS) '퍼블리시소프트'를 출시하고, 산업 전반에서 블록체인 기술 도입을 위한 글로벌 미디어·기술업체·학문기관 연합체인 '퍼블리시얼라이언스'를 설립했다.
지난 9월 국내 1위 인터넷 언론 컨텐츠 관리시스템(CMS) 서비스 기업 엔디소프트(NDSoft)와 전략적 제휴(MOU)를 맺었다. 11월에는 중소벤처기업부 '2020년 글로벌 액셀러레이팅 지원사업'의 일환으로 팀 드레이퍼(Tim Draper) 재단이 주최한 IR 피칭 프로그램에서 국내 팀 가운데 1위를 차지하기도 했다.
또한 퍼블리시는 한국민영방송연합과 협력해 블록체인 기술에 기반한 지역 뉴미디어 플랫폼을 개발할 예정이다.
토큰포스트 | info@tokenpost.kr