https://rajpurkar.github.io/SQuAD-explorer
문장에 대한 이해능력은 바둑과 달라 보인다. 세계 최고의 인공지능 개발 팀들이 실시간으로 성능을 겨루는 AI문해력 테스트에서 국내 기업이 12위에 올랐다. 구글은 총 25개팀이 참여했고 이중 가장 높은 순위는 2019년 9월 참여한 점수로 13위에 이름을 올리고 있다.
미국 스탠퍼드대학과 세계적인 GPU 기업 엔비디아 (NASDAQ:NVDA)(NVIDIA)는 3억4000만개의 매개변수를 가진 러신머닝 질의응답 시스템(SQuAD. The Standard Question Answering Dataset)을 개발해 AI시스템들의 문해력을 테스트하고 있다. 현재 시스템 버젼은 2.0으로 위키피디아의 500개 이상의 기사에 대한 10만개 이상의 질문과 답변이 한 세트로 구성된 SQuAD1.0에 답변 가능한 질문과 유사하게 보이도록 준비된 5만개 이상의 답변 불가능한 질문이 결합돼 있다.
엔비디아의 SQuD2.0 메가트론 개요에 따르면 질문에 대한 답변이 정확하게 일치되는 EM(Exact Match) 점수와 정답과 예측된 단어간의 평가를 나타내는 F1 점수가 존재하며 둘을 합산산 총점이 전체 평가에 이용되기도 한다. SQuAD2.0은 새로운 팀이 참여하면 그 팀의 점수가 기록되고 순위가 변경되는 방식이다. 기록을 투명하게 공개하기 때문에 정확한 인공지능 기술이 없는 기업은 도전이 불가능하다.
현재 SQuAD2.0 리더보드에 있는 인간의 문해력 점수는 EM이 86.831이며 F1이 89.452로 총점 176.283점이다. 인간의 문해력을 넘어서는 AI는 총점 176.621으로 리더보드 랭킹 28위까지다.
국내 AI 스타트업 투디지트(2Digit.io)는 지난 4월4일 SQuAD2.0 테스트에 참여해 총점 182.348점으로 12위를 기록하고 있다. AI 답변 정확도를 나타내는 EM 89.923점으로 인간 참여 점수 86.831점 보다 높았다.
2018년 9월 설립된 금융 인공지능 스타트업 투디지트는 2017년부터 기술개발을 시작했다. 2018년 카이스트 협약을 통해 공동개발을 시작했고 2019년 인공지능 연구소를 설립했다. 2020년 벤처캐피털들의 기관투자를 유치하면서 본격적인 시스템 고도화가 시작됐다. 현재 신한금융투자와 SK증권, 유진투자증권 등과 연계해 AI금융서비스를 제공한다.
투디지트가 인공지능 기술을 적용한 글로벌 파일럿 프로젝트는 ’뉴스샐러드‘다. 투디지트 박석준 대표는 "사용자가 뉴스를 찾기 위해 직접 검색하는 시간과 불편함을 해결하는 것과 포털보다 편리한 뉴스 서비스를 제공해 더 많은 사용자와 금융 네트워크를 연결하는 것이 뉴스샐러드의 궁극적 목표다. 신한금융투자와 SK증권 우리의 비젼과 기술을 믿어주었다"고 밝혔다.