nlp

·AI/NLP
Stemming의 필요성 정보검색 시스템에서 색인 파일의 크기를 줄이기 위해 단어(어절) 대신 어간(stem)을 저장 → 50% 이상의 압축 Stemming 기능 ex) Computer, coumputers, compute, computes, computed, computing 색인 어형이 변형된 단어로부터 접사 제거 - 어간 분리 색인어가 어간화되어 효율성 및 색인파일 압축 효과 검색 단수형-복수형 등 관련 있는 단어들을 동일한 어간으로 매치 질의어 확장 효과Stemming 방법 접사 제거(Affix Removal) 하나의 어간을 남기기 위해 용어들의 접두어와 접미어 제거 후속자 변형(Succesor Variety) 본문내의 글자가 연속으로 나타나는 빈도를 사용 테이블 탐색(Table Lookup) 용..
·AI/AI Project
LSTM 모델에 이어서 동일 데이터로 Transformer 모델에서 모델링을 진행하였습니다. 기존 LSTM 모델 결과를 확인하고 싶으시면 다음 링크로 들어가시면 됩니다. 감사합니다 :-) LSTM으로 spam 데이터 판별 주제 설명 Spam data를 바탕으로 이를 spam인지 spam이 아닌지 판별을 하는 모델을 개발하였습니다. 해당 모델은 LSTM을 선정하여 진행하였습니다. LSTM(Long SHor-Term Memory)는 순환 신경망(recureent natural net sunho99.tistory.com 주제 설명 보고서는 Transformer 모델을 사용하여 스팸 메세지를 감지하고 분류하는 과정에 대해 자세히 설명합니다. Transformer는 자연어 처리에 널리 사용되는 딥러닝 아키텍처로,..
·AI/AI Project
리뷰 데이터 파일 읽고 데이터 전처리 def total_review_toknizer(): file_path = "/Users/sunho99/PycharmProjects/python_Project/setiment_dictionary_project/text1.txt" okt = Okt() total_reviews = [] with open(file_path) as f: lines = f.readlines() with open(file_path) as f: lines = f.readlines() for i in lines: total_reviews.append(i[2:].strip("\n")) okt = Okt() normalization_total_review = [] # 평점 1~3점 # 문장 이상한거 수..
·AI/논문분석
Attention Is All You Need -논문리뷰 분석 RNN과 LSTM이란? RNN: 학습했던 데이터를 그 다음 순서에 정답데이터로 사용해 (누적 학습의 개념) 학습을 이어간다. 그래서 시계열 + 동적인 특성을 갖는 데이터에게 적합하다. 즉, 다시 역전파(Backpropagation) 과정을 통해 순환적으로 학습을 진행합니다. LSTM은 본격적인 연산 전에 장기 / 단기 정보를 담은 메모리를 분류하고, 이 메모리와 이벤트를 기반으로 각각 Long term memory, Short term memory에 적합한 내용을 따로따로 학습시킵니다. 아래의 그림에서 더욱 쉽게 이해할 수 있습니다. 들어가기 앞서 내용 설명 NLP의 기반이 되는 RNN과 LSTM이 나온 이후에 Seq2Seq가 나온 후 현대 ..
Shine_sunho
'nlp' 태그의 글 목록