💎 2020년 이후 처음으로 연준이 금리를 인하하였습니다! 적정가치 도구로 보석을 찾아보세요.저평가된 주식 보기

퍼블리시랩(PUBLISHLAB), 뉴스 추천·블록체인 인덱스 등 4개 혁신 프로토타입 공개

입력: 2020- 12- 21- 오후 06:42
퍼블리시랩(PUBLISHLAB), 뉴스 추천·블록체인 인덱스 등 4개 혁신 프로토타입 공개

글로벌 미디어 테크 기업 퍼블리시(PUBLISH)가 내부 미디어 혁신 연구소 '퍼블리시랩(PUBLISHlab)'의 공식 사이트를 개설했다고 지난 18일 발표했다.

퍼블리시랩은 첨단 기술을 활용해 독자 참여 개선, 가짜 뉴스 퇴치, 언론사 수익 구조 개선에 필요한 디지털 툴을 개발하기 위해 지난 5월 출범했다.

퍼블리시랩 사이트는 저널리즘 발전을 위한 4개 프로토타입 솔루션 △콘텐츠 추천 기능, △뉴스 정서 분석 툴, △자동 이미지 태그 기능, △퍼블리시투블록체인 툴을 지원한다. 사이트 구축에는 파이썬 기반 웹개발 프레임워크 플라스크(Flask)가 사용됐다.

토큰포스트 주요 기사를 뉴스레터를 통해 만나보세요 (구독하기)

콘텐츠 추천 기능(Content recommender)

콘텐츠 추천 기능은 관련 뉴스를 자동 제안하는 프로토타입이다. 먼저, 1개 이상의 뉴스 피드를 읽어들여 파이썬 기반 구문 분석 모듈 '유니버셜피드파서(Universal Feed Parser)'를 통해 구문을 분석한다.

이어 판다스(pandas)의 데이터 프레임으로 변환시킨다. 판다스는 파이썬 언어로 작성된 데이터 분석·조작하는 소프트웨어 라이브러리다.

자연어 처리 라이브러리 스페이시(spaCy) 및 en-core-sm 영어 모델을 사용해, 무작위로 선정한 뉴스 기사에서 헤드라인을 추출하고, 본문에서 인명, 장소, 단체, 조직 등 명명된 개체를 식별하는 개체명 인식(named-entity recognition.NER)을 수행한다.

끝으로, 파이썬 기반 머신러닝 라이브러리 sci-kit learn에서 지원하는 카운트벡터라이저(CountVectorizer) 및 코사인 유사도(cosine_similarity) 모듈을 활용해 문서 단어 행렬(document-term matrix)을 만들고 헤드라인 유사성을 판별한다.

카운트벡터라이저와 코사인 유사도는 문서 간 유사성을 측정하는 모듈이다. 각각 데이터 값의 횟수, 데이터 값 사이 각도를 기준으로 평가한다.

뉴스 정서 분석 툴(Sentiment analysis tool)

뉴스 정서 분석 툴은 텍스트가 얼마나 긍정적인지, 부정적인지를 기반으로 뉴스 정서 점수를 평가하는 툴이다.

사전 처리 단계에서 사용자가 입력한 텍스트의 주요 용어를 식별하고, 필요시 구글 트랜스파이선 라이브러리를 통해 영어로 변환시킨다.

이어 자동 정서 분석 프로그램 베이더(VADER)를 통해 텍스트 정스를 분석한다. 해당 툴은 부정문, 느낌표, 대문자, 정도 부사, 정서를 표현한 속어, 유니코드 이모티콘 등을 통해 텍스트 정서를 도출해낸다.

해당 프로토콜은 본문 전체 및 문장 단위마다 정서 지수를 매길 수 있다. 문장 색상을 바꿔 정서 점수를 나타낼 수 있다. 뉴스나 제품 리뷰 등에서 긍정적인 표현, 부정적인 표현 등을 잡아낼 수 있다.

자동 이미지 태깅 기능(Automatic image tagger)

자동 이미지 태킹 프로토타입은 딥러닝 이미지 모델을 사용해 이미지에 자동으로 태그한다. 사용자가 업로드한 이미지는 파이썬 기반 머신러닝 라이브러리 파이토치(PyTorch)를 통해 크기 조정, 잘라내기 등의 사전 처리를 거친다.

이어 컴퓨터 비전 모델을 통해 사전 처리된 이미지 속 사물을 식별하고 신뢰도 점수 기반 상위 태그 5개를 만들어낸다.

컴퓨터 비전은 컴퓨터를 통해 인간의 시각 인식 능력을 재현하는 인공지능 기술을 말한다. 퍼블리시는 현재 유일한 옵션인 이미지넷(ImageNet) 기반 컴퓨터 비전 모델 ResNet-50을 사용했다.

해당 프로토타입은 콘텐츠 허브에서 이미지를 검색 가능하도록 만들는 데 사용할 수 있다.

퍼블리시투블록체인툴(Publish-to-blockchain tool)

퍼블리시투블록체인툴 프로토타입은 EOSIS 블록체인에 뉴스 콘텐츠에 대한 색인을 만들 수 있다.

먼저, 뉴스를 ninjs(News in JSON)에서 파생된 블록체인 및 뉴스 미디어 친화적인 형식으로 변환시키고, 결과값을 이오스IO 테스트넷인 정글 테스트넷(Jungle Testnet)에 트랜잭션으로 게재한다.

트랜잭션을 실행하기 전 SHA-256 해싱알고리즘을 통해 콘텐츠를 암호화시키는 것도 가능하다. 해당 기술은 저작권 보호, 저널리즘 투명성 향상, 데이터 손실 및 검열 방지 등 다양한 부문에 활용할 수 있다.

한편, 퍼블리시랩은 4가지 프로토타입 외에도 더욱 컴퓨터 비전 모델과 뉴스 자동화, 뉴스 요약 등 여러 기능을 개발하고 있다. 이를 위해 데이터가 풍부한 분야에서 훈련된 모델을 재사용하는 머신러닝 학습 기법 '전이학습((transfer learning)'을 활용하고 있다.

퍼블리시는 언론 산업의 혁신을 위해 퍼블리시 프로토콜 기반의 미디어 댑 발굴과 유기적인 생태계 성장을 위한 새로운 미디어 표준을 만들어가고 있다. 자체 개발한 미디어 콘텐츠관리시스템(CMS) '퍼블리시소프트'를 출시하고, 산업 전반에서 블록체인 기술 도입을 위한 글로벌 미디어·기술업체·학문기관 연합체인 '퍼블리시얼라이언스'를 설립했다.

지난 9월 국내 1위 인터넷 언론 컨텐츠 관리시스템(CMS) 서비스 기업 엔디소프트(NDSoft)와 전략적 제휴(MOU)를 맺었다. 11월에는 중소벤처기업부 '2020년 글로벌 액셀러레이팅 지원사업'의 일환으로 팀 드레이퍼(Tim Draper) 재단이 주최한 IR 피칭 프로그램에서 국내 팀 가운데 1위를 차지하기도 했다.

또한 퍼블리시는 한국민영방송연합과 협력해 블록체인 기술에 기반한 지역 뉴미디어 플랫폼을 개발할 예정이다.

토큰포스트 | info@tokenpost.kr

최신 의견

리스크 고지: 금융 상품 및/또는 가상화폐 거래는 투자액의 일부 또는 전체를 상실할 수 있는 높은 리스크를 동반하며, 모든 투자자에게 적합하지 않을 수 있습니다. 가상화폐 가격은 변동성이 극단적으로 높고 금융, 규제 또는 정치적 이벤트 등 외부 요인의 영향을 받을 수 있습니다. 특히 마진 거래로 인해 금융 리스크가 높아질 수 있습니다.
금융 상품 또는 가상화폐 거래를 시작하기에 앞서 금융시장 거래와 관련된 리스크 및 비용에 대해 완전히 숙지하고, 자신의 투자 목표, 경험 수준, 위험성향을 신중하게 고려하며, 필요한 경우 전문가의 조언을 구해야 합니다.
Fusion Media는 본 웹사이트에서 제공되는 데이터가 반드시 정확하거나 실시간이 아닐 수 있다는 점을 다시 한 번 알려 드립니다. 본 웹사이트의 데이터 및 가격은 시장이나 거래소가 아닌 투자전문기관으로부터 제공받을 수도 있으므로, 가격이 정확하지 않고 시장의 실제 가격과 다를 수 있습니다. 즉, 가격은 지표일 뿐이며 거래 목적에 적합하지 않을 수도 있습니다. Fusion Media 및 본 웹사이트 데이터 제공자는 웹사이트상 정보에 의존한 거래에서 발생한 손실 또는 피해에 대해 어떠한 법적 책임도 지지 않습니다.
Fusion Media 및/또는 데이터 제공자의 명시적 사전 서면 허가 없이 본 웹사이트에 기재된 데이터를 사용, 저장, 복제, 표시, 수정, 송신 또는 배포하는 것은 금지되어 있습니다. 모든 지적재산권은 본 웹사이트에 기재된 데이터의 제공자 및/또는 거래소에 있습니다.
Fusion Media는 본 웹사이트에 표시되는 광고 또는 광고주와 사용자 간의 상호작용에 기반해 광고주로부터 보상을 받을 수 있습니다.
본 리스크 고지의 원문은 영어로 작성되었으므로 영어 원문과 한국어 번역문에 차이가 있는 경우 영어 원문을 우선으로 합니다.
© 2007-2024 - Fusion Media Limited. 판권소유