텍스트 수집 후 가장 먼저 해야 할 일은, 앞으로 할 분석에 방해만 될 뿐, 일절 도움이 되지 않는 즉, 필요한 정보를 담고 있지 않은 텍스트 (불용어 stopwords)들을 분석 전 미리 최대한 제거하는 것이다. 이런 불용어들을 지정한 사전 (불용어 사전)을 구축한 뒤, 이 사전을 이용하여 수집한 텍스트들을 정제하게 된다. 때문에 불용어 사전은 텍스트 빅데이터를 분석 전에 정제하는 데 있어 반드시 필요한 부분이다.
불용어사전(Stopwords Dictionary): 의미를 가지고 있지 않은 또는 의미를 가지고 있지만 경영 관점에서 분석 대상이 되지 않는 문자 표현들을 모아놓은 화일
하지만, 이 불용어 리스트를 만드는 일은 반드시 인간의 노력이 요구되는 일이다. 컴퓨터 프로그래밍으로 자동화 하기가 현실적으로 불가능한 부분이다. 문제는 이 작업이 많은 시간과 노동을 요구한다는 점이다. 또한, 불용어를 선별은 분석을 하는 사람의 목적과 분석 방식에 따라 달라지기에 분석에 관여하지 않는 사람이 해서는 분석에 필요한 표현을 삭제하는 경우가 발생하기 마련이다.
때문에, 체계적인 기준에 따라 사전에 개발된 불용어 사전을 이용하는 것이 바람직하지만, 문제는 국내에 체계적으로 적절한 방식으로 만들어진 불용어 사전이 현재 존재하지 않는다. 현재 공개된 불용어 사전이 소수 존재하기는 하나, 개인이 어떤 체계적 기준을 가지고 만든 것들은 찾아보기 어렵다. 이들 사전들은 불용어 선정 기준을 제시하고 있지 않으며, 불용어 사전에 포함된 표현의 수가 매우 적으며, 불용어가 아닌 표현들을 다수 포함하고 있다. 또한, 기업/경영 관점에서 사용할 비즈니스 불용어 사전은 더더욱 존재하지 않는다.
이런 이유로, 기업 관점에서 텍스트 분석을 하는데 필요한 비즈니스용 불용어 사전을 직접 구축하게 되었다. 아직은 많이 부족하나 적어도 기존에 사용할 대안이 없다고 판단된다면 이 비즈니스 불용어 사전을 활용하시기 바란다. 비즈니스 관점에서 텍스트 분석을 하고자 하는 분들 텍스트 정제시 시간과 노력을 줄이는데 도움이 되기를 바란다. JLab에서 개발하고 있는 비즈니스 불용어 사전은 지속적으로 업데이트 및 개선 관리를 하고 있기에, 시간이 지날 수 록 유용할 것으로 기대된다.
형식: 분석 방식 (화면 참조)
reference 불용어 사전명 기입 (default 시스템내에 있는 불용어 사전 사용) 유의기호사전 (SymbolDic.csv)는 시스템내에 있는 것을 필수로 사용함. (본인이 작성한 유의기호사전을 사용할 경우 위 동일 이름으로 폴더에 업로드하면 됨.)
*** 유의기호 사전 (2022년 1월 1일 version) 다운로드 가능**