1573 views
# NLP自然語言處理 ###### tags: `MCL` `108-2-project` 107賴沂璘(大二) ## 計畫目的 > 對社群網站的推文做情感分析,瞭解大眾即時或對部分議題的情緒表現 ## 與該計畫相關的技能 * 資料蒐集、前處理 * twitter推文蒐集:Twython, nltk.twitter * Twitter Streaming API(實時收集推文) * Standard Search API (七天內與查詢相關推文) * PTT批踢踢實業坊:BeautifulSoup, url, request * 資料前處理:Pandas, NumPy * 資料可視化: seaborn, Matplotlib * 情感分析模型的應用/創建 * 訓練好的模型應用: * TextBlob (英文 正面/負面程度) * SnowNLP (中文 正面/負面程度) * 自己訓練模型 * SVM分類器 * Naive Bayes * Scikit Learn * 網頁架設:html, css, javascript, PHP, node.js, vue.js, laravel, Mysql, ## 實現方法 1. 收集數據、前處理 * 透過nltk.twitter或Stadard Search API蒐集twitter推文數據 * 觀察數據格式、清理數據 (e.g.清除推文裡的表情符號、刪除小於三個單字的推文) 2. 應用訓練好的模型(TextBlob)對數據做情緒分析 3. 架設網站 (<==預計可以做到這裡) * 檢視即時平均情緒表現並保留過去三天數據做成折現圖表 * 讓使用者查詢部分議題(利用Hashtag) 4. 練習自己製作情緒分析model 5. 練習擴展應用在PTT批踢踢實業坊的文章上 ## 參考資料 * Twitter API: * http://www.nltk.org/howto/twitter.html * 建立模型: * http://xtf615.com/2017/02/10/%E5%9F%BA%E4%BA%8Ejieba%E5%88%86%E8%AF%8D%E5%92%8Cnltk%E7%9A%84%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90/ (基本流程) * https://medium.com/@wshuyi/%E5%A6%82%E4%BD%95%E7%94%A8python%E5%81%9A%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90-9df4d49acaa3 (TextBlob/SnowNLP) * https://medium.com/@sfhsu29/nlp-%E5%85%A5%E9%96%80-1-text-classification-sentiment-analysis-%E6%A5%B5%E7%B0%A1%E6%98%93%E6%83%85%E6%84%9F%E5%88%86%E9%A1%9E%E5%99%A8-bag-of-words-naive-bayes-e40d61de9a7f(Bag of words/Naive Bayes) * https://blog.csdn.net/ChenVast/article/details/82992787#PosWords * MonkeyLearn : * https://monkeylearn.com/blog/sentiment-analysis-of-twitter/