서포트벡터머신 - 이진분류 피마인디언 당뇨병 데이터셋 In [3]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') 1. 데이터 준비 In [4]: from google.colab import drive drive.mount('/content/drive') Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True). In [5]: d..
KNN (이진분류) citrus data set In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 1. 데이터 준비¶ In [2]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive In [97]: df = pd.read_csv("/content/drive/MyDrive/SKT FLY AI/2주차/citrus.csv") In [77]: df.head() Out[77]: name diameter weight red green blue 0 orange 2.96 86.76 ..
MBTI Personality Types 500 Dataset ~100K preprocessed records of posts and personality types www.kaggle.com 본 프로젝트는 Kaggle에 있는 MBTI dataset을 사용하여 colab환경에서 진행했습니다. from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive %cd /content/drive/MyDrive/텍스트마이닝_기말과제 /content/drive/MyDrive/텍스트마이닝_기말과제 !ls 'MBTI 500.csv' svm_classifier.pkl 텍스트마..
import pandas as pd import matplotlib.pyplot as plt import numpy as np import torch np.set_printoptions(precision=6, suppress=True) #과학적 표기 없애고 소수 2짜리까지 표현 # Task 1-1 df = pd.read_csv("./owid-covid-data.csv") # Task 1-2 df['date'] = pd.to_datetime(df['date']) df['date'] 0 2020-02-24 1 2020-02-25 2 2020-02-26 3 2020-02-27 4 2020-02-28 ... 127812 2021-10-28 127813 2021-10-29 127814 2021-10-30 1278..
Pyspark MLlib에 필요한 라이브러리 호출 import pandas import numpy import os import matplotlib.pyplot as plt import seaborn as sns plt.rc('font',family = "AppleGothic") plt.rcParams['axes.unicode_minus'] = False # PySpark - SQL from pyspark.sql import SparkSession from pyspark.sql.functions import mean,col,split,regexp_extract,when,lit,isnan,count # Pyspark - ML 파이프라인 from pyspark.ml import Pipeline # Featu..
LSTM 모델에 이어서 동일 데이터로 Transformer 모델에서 모델링을 진행하였습니다. 기존 LSTM 모델 결과를 확인하고 싶으시면 다음 링크로 들어가시면 됩니다. 감사합니다 :-) LSTM으로 spam 데이터 판별 주제 설명 Spam data를 바탕으로 이를 spam인지 spam이 아닌지 판별을 하는 모델을 개발하였습니다. 해당 모델은 LSTM을 선정하여 진행하였습니다. LSTM(Long SHor-Term Memory)는 순환 신경망(recureent natural net sunho99.tistory.com 주제 설명 보고서는 Transformer 모델을 사용하여 스팸 메세지를 감지하고 분류하는 과정에 대해 자세히 설명합니다. Transformer는 자연어 처리에 널리 사용되는 딥러닝 아키텍처로,..
주제 설명 Spam data를 바탕으로 이를 spam인지 spam이 아닌지 판별을 하는 모델을 개발하였습니다. 해당 모델은 LSTM을 선정하여 진행하였습니다. LSTM(Long SHor-Term Memory)는 순환 신경망(recureent natural network, RNN)의 한 종류로 text데이터와 같은 sequence 데이터를 처리하는데 특히 유용한 알고리즘입니다. 이러한 이유로 spam 데이터를 선정하였으며, 해당 보고서에서는 LSTM을 이용하여 스팸 메일을 식별하는 문제를 다룰 것 입니다. 데이터 설명 이 프로젝트에서 사용된 데이터는 스팸과 스팸이 아닌 일반 메일로 레이블링된 이메일 데이터입니다. 데이터셋은 이메일의 본문 텍스트와 해당 이메일이 스팸인지 스팸이 아닌지를 나타내는 레이블로 구..
리뷰 데이터 파일 읽고 데이터 전처리 def total_review_toknizer(): file_path = "/Users/sunho99/PycharmProjects/python_Project/setiment_dictionary_project/text1.txt" okt = Okt() total_reviews = [] with open(file_path) as f: lines = f.readlines() with open(file_path) as f: lines = f.readlines() for i in lines: total_reviews.append(i[2:].strip("\n")) okt = Okt() normalization_total_review = [] # 평점 1~3점 # 문장 이상한거 수..