# NLP自然語言處理
###### tags: `MCL` `108-2-project`
107賴沂璘(大二)
## 計畫目的
> 對社群網站的推文做情感分析,瞭解大眾即時或對部分議題的情緒表現
## 與該計畫相關的技能
* 資料蒐集、前處理
* twitter推文蒐集:Twython, nltk.twitter
* Twitter Streaming API(實時收集推文)
* Standard Search API (七天內與查詢相關推文)
* PTT批踢踢實業坊:BeautifulSoup, url, request
* 資料前處理:Pandas, NumPy
* 資料可視化: seaborn, Matplotlib
* 情感分析模型的應用/創建
* 訓練好的模型應用:
* TextBlob (英文 正面/負面程度)
* SnowNLP (中文 正面/負面程度)
* 自己訓練模型
* SVM分類器
* Naive Bayes
* Scikit Learn
* 網頁架設:html, css, javascript, PHP, node.js, vue.js, laravel, Mysql,
## 實現方法
1. 收集數據、前處理
* 透過nltk.twitter或Stadard Search API蒐集twitter推文數據
* 觀察數據格式、清理數據 (e.g.清除推文裡的表情符號、刪除小於三個單字的推文)
2. 應用訓練好的模型(TextBlob)對數據做情緒分析
3. 架設網站 (<==預計可以做到這裡)
* 檢視即時平均情緒表現並保留過去三天數據做成折現圖表
* 讓使用者查詢部分議題(利用Hashtag)
4. 練習自己製作情緒分析model
5. 練習擴展應用在PTT批踢踢實業坊的文章上
## 參考資料
* Twitter API:
* http://www.nltk.org/howto/twitter.html
* 建立模型:
* http://xtf615.com/2017/02/10/%E5%9F%BA%E4%BA%8Ejieba%E5%88%86%E8%AF%8D%E5%92%8Cnltk%E7%9A%84%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90/ (基本流程)
* https://medium.com/@wshuyi/%E5%A6%82%E4%BD%95%E7%94%A8python%E5%81%9A%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90-9df4d49acaa3 (TextBlob/SnowNLP)
* https://medium.com/@sfhsu29/nlp-%E5%85%A5%E9%96%80-1-text-classification-sentiment-analysis-%E6%A5%B5%E7%B0%A1%E6%98%93%E6%83%85%E6%84%9F%E5%88%86%E9%A1%9E%E5%99%A8-bag-of-words-naive-bayes-e40d61de9a7f(Bag of words/Naive Bayes)
* https://blog.csdn.net/ChenVast/article/details/82992787#PosWords
* MonkeyLearn :
* https://monkeylearn.com/blog/sentiment-analysis-of-twitter/