개념

예시

아래와 같이 3개의 문서가 있을 때 DTM은 아래 표와 같음

희소 표현(Sparse representation)
- 각 문서 벡터의 차원은 단어 집합의 크기이고 대부분의 값이 0이 됨
- 공간적 낭비와 계산 리소스를 증가시킬 수 있음
- 구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을 통해 단어를 정규화하여 단어 집합의 크기를 줄일 순 있음
단순 빈도 수 기반 접근
- 각 문서에는 중요한 단어와 불필요한 단어들이 혼재되어 있음
- 불용어와 중요한 단어에 대해서 가중치를 주어야 함 → TF-IDF

Reference

분류 모델 성능 평가 지표(Accuracy, Precision, Recall, F1 score 등) (2)	2022.01.02
BM25 (0)	2021.12.13
TF-IDF(Term Frequency - Inverse Document Frequency) (0)	2021.12.13
[논문] 사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템 (0)	2021.12.12
GLUE Benchmark (0)	2021.11.07