AI/AI Project

·AI/AI Project
서포트벡터머신 - 이진분류 피마인디언 당뇨병 데이터셋 In [3]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') 1. 데이터 준비 In [4]: from google.colab import drive drive.mount('/content/drive') Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True). In [5]: d..
·AI/AI Project
KNN (이진분류) citrus data set In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 1. 데이터 준비¶ In [2]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive In [97]: df = pd.read_csv("/content/drive/MyDrive/SKT FLY AI/2주차/citrus.csv") In [77]: df.head() Out[77]: name diameter weight red green blue 0 orange 2.96 86.76 ..
·AI/AI Project
MBTI Personality Types 500 Dataset ~100K preprocessed records of posts and personality types www.kaggle.com 본 프로젝트는 Kaggle에 있는 MBTI dataset을 사용하여 colab환경에서 진행했습니다. from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive %cd /content/drive/MyDrive/텍스트마이닝_기말과제 /content/drive/MyDrive/텍스트마이닝_기말과제 !ls 'MBTI 500.csv' svm_classifier.pkl 텍스트마..
·AI/AI Project
import pandas as pd import matplotlib.pyplot as plt import numpy as np import torch np.set_printoptions(precision=6, suppress=True) #과학적 표기 없애고 소수 2짜리까지 표현 # Task 1-1 df = pd.read_csv("./owid-covid-data.csv") # Task 1-2 df['date'] = pd.to_datetime(df['date']) df['date'] 0 2020-02-24 1 2020-02-25 2 2020-02-26 3 2020-02-27 4 2020-02-28 ... 127812 2021-10-28 127813 2021-10-29 127814 2021-10-30 1278..
·AI/AI Project
Pyspark MLlib에 필요한 라이브러리 호출 import pandas import numpy import os import matplotlib.pyplot as plt import seaborn as sns plt.rc('font',family = "AppleGothic") plt.rcParams['axes.unicode_minus'] = False # PySpark - SQL from pyspark.sql import SparkSession from pyspark.sql.functions import mean,col,split,regexp_extract,when,lit,isnan,count # Pyspark - ML 파이프라인 from pyspark.ml import Pipeline # Featu..
·AI/AI Project
LSTM 모델에 이어서 동일 데이터로 Transformer 모델에서 모델링을 진행하였습니다. 기존 LSTM 모델 결과를 확인하고 싶으시면 다음 링크로 들어가시면 됩니다. 감사합니다 :-) LSTM으로 spam 데이터 판별 주제 설명 Spam data를 바탕으로 이를 spam인지 spam이 아닌지 판별을 하는 모델을 개발하였습니다. 해당 모델은 LSTM을 선정하여 진행하였습니다. LSTM(Long SHor-Term Memory)는 순환 신경망(recureent natural net sunho99.tistory.com 주제 설명 보고서는 Transformer 모델을 사용하여 스팸 메세지를 감지하고 분류하는 과정에 대해 자세히 설명합니다. Transformer는 자연어 처리에 널리 사용되는 딥러닝 아키텍처로,..
·AI/AI Project
주제 설명 Spam data를 바탕으로 이를 spam인지 spam이 아닌지 판별을 하는 모델을 개발하였습니다. 해당 모델은 LSTM을 선정하여 진행하였습니다. LSTM(Long SHor-Term Memory)는 순환 신경망(recureent natural network, RNN)의 한 종류로 text데이터와 같은 sequence 데이터를 처리하는데 특히 유용한 알고리즘입니다. 이러한 이유로 spam 데이터를 선정하였으며, 해당 보고서에서는 LSTM을 이용하여 스팸 메일을 식별하는 문제를 다룰 것 입니다. 데이터 설명 이 프로젝트에서 사용된 데이터는 스팸과 스팸이 아닌 일반 메일로 레이블링된 이메일 데이터입니다. 데이터셋은 이메일의 본문 텍스트와 해당 이메일이 스팸인지 스팸이 아닌지를 나타내는 레이블로 구..
·AI/AI Project
리뷰 데이터 파일 읽고 데이터 전처리 def total_review_toknizer(): file_path = "/Users/sunho99/PycharmProjects/python_Project/setiment_dictionary_project/text1.txt" okt = Okt() total_reviews = [] with open(file_path) as f: lines = f.readlines() with open(file_path) as f: lines = f.readlines() for i in lines: total_reviews.append(i[2:].strip("\n")) okt = Okt() normalization_total_review = [] # 평점 1~3점 # 문장 이상한거 수..
Shine_sunho
'AI/AI Project' 카테고리의 글 목록