본문 바로가기
AI/공부

23/01/13

by 별빛밤 2023. 1. 13.

python library, package, module

  • matplotlib : 2D, 3D 형태의 plot(graph)을 그릴 때 주로 사용하는 패키지(module)
    • ※ matplotlib.pyplot as plt 가 많이 쓰임
  • seaborn : dataframe으로 다양한 통계 지표를 표현할 수 있는 시각화 차트를 제공하기 때문에 데이터 분석에 사용됌
  • scikit-learn : classification; 분류, regression; 회귀, clustering; 군집, decision tree; 의사 결정 트리 등 다양한 머신 러닝 알고리즘을 적용할 수 있는 함수를 제공하는 machine learning library
  • pandas : dataframe 생성 및 편집, csv file 읽기

 

Embedding; 임베딩 : word - > vector : 단어를 벡터로 변환

 

-단어 데이터 ->  category data; 범주형 타입 데이터 -> 숫자(텐서)로 변환 해야함

category data -> dataset[category] -> numpy array -> tensor

                   astype('category')

 

one-hot encoding 

  1. cat.codes; 범주형 데이터(단어)를 숫자(넘파이 배열)로 변환하기 위해 cat.codes 사용. 단, zt.codes는 어떤 클래스가 어떤 숫자로 매핑되어 있는지 확인이 어려운 단점이 있다.

https://teddylee777.github.io/scikit-learn/labelencoder-%EC%82%AC%EC%9A%A9%EB%B2%95

References

 

https://spark.apache.org/docs/3.2.1/api/python/reference/pyspark.pandas/api/pyspark.pandas.Series.cat.codes.html

'AI > 공부' 카테고리의 다른 글

multi-class and multi-label  (0) 2023.05.12
speech, Audio basic concept  (0) 2023.03.06
23/01/11 pytorch  (0) 2023.01.11
23/01/10 Text-to-Speech  (0) 2023.01.10