본문 바로가기

Study

DTM(Document-Term Matrix)

개념

  • 문서 단어 행렬
  • 서로 다른 문서들의 BoW들을 결합한 표현 방법
  • 행(문서)과 열(단어)을 반대로 선택하면 TDM이라고 부르기도 함
  • 서로 다른 문서들을 비교할 수 있음

예시

아래와 같이 3개의 문서가 있을 때 DTM은 아래 표와 같음

  • 문서
    • 문서1: 나는 학교에 갔다
    • 문서2: 나는 집에 갔다
    • 문서3: 나는 회사에 갔다
  • DTM
    갔다 나는 집에 학교에 회사에
    문서 1 1 1 0 1 0
    문서 2 1 1 1 0 0
    문서 3 1 1 0 0 1
    총 개수 3 3 1 1 1

한계점

  • 희소 표현(Sparse representation)
    • 각 문서 벡터의 차원은 단어 집합의 크기이고 대부분의 값이 0이 됨
    • 공간적 낭비와 계산 리소스를 증가시킬 수 있음
    • 구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을 통해 단어를 정규화하여 단어 집합의 크기를 줄일 순 있음
  • 단순 빈도 수 기반 접근
    • 각 문서에는 중요한 단어와 불필요한 단어들이 혼재되어 있음
    • 불용어와 중요한 단어에 대해서 가중치를 주어야 함 → TF-IDF


Reference