username
= str - 유저 이름prname
= str - 프로젝트이름Jlab backbone dictionary 내 표준불용어사전 sheet를 이용하여 입력된 텍스트 데이터 내의 불용어를 제거하는 함수이다
양식 - 딕셔너리의 한 행 적는 느낌으로 수정하기
Defalult 값은 Jlab backbone dictionary 내에 있는 JDic_BizStopwords(경영불용어사전) 시트입니다.
word(불용어), space(띄어쓰기) 열로 구성되어 있습니다.
불용어사전을 불러들여오면 띄어쓰기 열에 1이 기입되어있는 불용어는 불용어 처리 시 띄어쓰기를 포함하여 처리하게 됩니다.
ex) ‘요’ → ‘요 ‘. (띄어쓰기 처리 단계)
‘안녕하세요’ → ‘안녕하세요’ / ‘안녕하세요 ‘ → ‘안녕하세’ (불용어 처리 단계)
유의기호사전 (SymbolDic.csv)는 시스템내에 있는 것을 필수로 사용합니다. 유의기호사전은 Symbol, ReplacedText 두 열로 구성되어 있습니다.
처리하고자 하는 텍스트의 열 이름이 ‘contents’인 텍스트 파일입니다.
형식은 pkl, csv, xlsx 모두 가능합니다. local로 구동 시 코드와 같은 경로에 텍스트파일이 위치해야 하며, 확장자명까지 모두 기입해야 합니다.
ex)공차 크롤링 파일.xlsx
Input File의 형식을 유지하며 contents 열의 문장들이 불용어가 제거된 문장으로 대체된 파일입니다.
예시
최종 코드