275 views
 owned this note
# <center>文字雲</center> ###### tags: `MCL` `108-2-project` 108 謝沛寰 (大一) ## 一、計畫目的 在[科技新報](https://technews.tw/category/internet-of-things-internet/)網站,對和「物聯網」相關的文章進行爬蟲,並依照各個詞彙出現的頻率高低繪製文字雲。 ## 二、相關技能 + Python 基本語法 + API 的概念 + 網頁前端基礎 (HTML, JavaScript 等等) + 一些 Python 的爬蟲庫 + `BeautifulSoup`, `url`, `request` + `pandas` + `jieba`, `nltk` + `matplotlib.pyplot`, `wordcloud` ## 三、實施方式 1. 透過開發者工具觀察[科技新報物聯網版](https://technews.tw/category/internet-of-things-internet/)是屬於靜態網站還是動態網站。 3. 根據網站特性選擇 `request`/`BeautifulSoup`/`selenium` 進行爬蟲整理。 4. 爬下文章,利用 `jieba` 斷詞將文章拆解。 5. 撰寫程式計算各字詞出現的頻率。 6. 將經常出現的 stop words 過濾掉,例如:的、像等字。 7. 對字詞出現頻率進行排名。 8. 將結果用文字雲的方式呈現。 ## 參考資料 * https://www.jamleecute.com/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2-web-crawler-text-mining-python/ * https://www.jamleecute.com/python-web-crawler-beautifulsoup-%e7%b6%b2%e8%b7%af%e7%88%ac%e8%9f%b2/ * https://www.itread01.com/content/1549940073.html * https://medium.com/pyladies-taiwan/nltk-%E5%88%9D%E5%AD%B8%E6%8C%87%E5%8D%97-%E4%B8%80-%E7%B0%A1%E5%96%AE%E6%98%93%E4%B8%8A%E6%89%8B%E7%9A%84%E8%87%AA%E7%84%B6%E8%AA%9E%E8%A8%80%E5%B7%A5%E5%85%B7%E7%AE%B1-%E6%8E%A2%E7%B4%A2%E7%AF%87-2010fd7c7540