Study (12) 썸네일형 리스트형 TF-IDF(Term Frequency - Inverse Document Frequency) 개념 단어 빈도 - 역 문서 빈도 DTM(Document-Term Matrix) 내에 있는 각 단어에 대한 중요도를 계산할 수 있음 정보 검색과 텍스트 마이닝에서 이용하는 가중치 여러 문서에서 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치 모든 문서에서 자주 등장하는 단어는 중요도가 낮고, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단함 즉, TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것임 용도 문서의 핵심어 추출 검색 엔진에서 검색 결과의 순위 결정 문서들 사이의 비슷한 정도 계산 설명 TF(Term Frequency) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 값이 높을수록 해당 단어가 문서에서 .. DTM(Document-Term Matrix) 개념 문서 단어 행렬 서로 다른 문서들의 BoW들을 결합한 표현 방법 행(문서)과 열(단어)을 반대로 선택하면 TDM이라고 부르기도 함 서로 다른 문서들을 비교할 수 있음 예시 아래와 같이 3개의 문서가 있을 때 DTM은 아래 표와 같음 문서 문서1: 나는 학교에 갔다 문서2: 나는 집에 갔다 문서3: 나는 회사에 갔다 DTM 갔다 나는 집에 학교에 회사에 문서 1 1 1 0 1 0 문서 2 1 1 1 0 0 문서 3 1 1 0 0 1 총 개수 3 3 1 1 1 한계점 희소 표현(Sparse representation) 각 문서 벡터의 차원은 단어 집합의 크기이고 대부분의 값이 0이 됨 공간적 낭비와 계산 리소스를 증가시킬 수 있음 구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을.. [논문] 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 제목: 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 저널명: 한국정보과학회 출간년도: 2021 저자: 박서연(울산대학교), 옥철영(울산대학교) URL: https://www.dbpia.co.kr/Journal/articleDetail?nodeId=NODE10536782 요약 본 논문에서 말뭉치에서 음절 uni-gram, bi-gram, tri-gram의 빈도수를 계산하고 이를 활용하여 확률식을 학습하여 띄어쓰기 및 붙여쓰기 오류 교정 시스템을 구축한다. 딥러닝 모델을 사용할 경우 문장에 있는 띄어쓰기를 모두 제거하고 띄어쓰기를 교정하는데 본 논문은 원래 문장의 띄어쓰기를 반영하여 잘못된 띄어쓰기를 제거하고 띄어쓰기가 되지 않은 곳에 띄어쓰기를 제거한다.. GLUE Benchmark GLUE(General Language Understanding Evaluation) benchmark는 자연언어 이해 시스템을 학습, 평가, 분석하기 위한 리소스 모음으로 영어로 구성되어있다. 언어 모델 평가할 때 많이 사용되고 있다. 논문: https://openreview.net/pdf?id=rJ4km2R5t7 사이트: https://gluebenchmark.com/ GLUE Benchmark The General Language Understanding Evaluation (GLUE) benchmark is a collection of resources for training, evaluating, and analyzing natural language understanding systems gl.. 이전 1 2 다음