本周重點為如何獲得「數據」,並介紹能夠篩選數據的軟體,對於資料新聞學有概念後,接著就是學著獲取以及使用數據,再加以分析。
兩大疑惑:
Q1:資料新聞專題的流程大概長怎樣?
Q2:資料新聞一定要有數據嗎?
A1:從問題 〉找資料 〉清理分析 〉工具製圖 〉視覺化,大概這五步能把專題做完,而這五件事都是在訴說你的故事。
A2:資料一定要數據嗎? 不一定,可以是以圖像為主的資訊圖表,但大部分的資料新聞仍是以數據集(Dataset)為基礎而產製的報導。
開始找資料!要去哪找?
· 介紹資料庫!
資料庫國內外還有非常多,這邊先介紹幾個。
主計處中不同面向的數據
如果在左側選資料集,中文目前沒有資料,改成其他語言就會有不同資料呈現
如果選擇指標,就會有不同資料集的視覺化呈現(如下圖)
有整理很多Raw Data,創始人王向榮、李慕約是很棒的人!
軟體應用─把數據「抓」出來的好幫手!
1. Tabula
用Tabula 選取剛剛下載的PDF
按下
Autodetect Tables,紅色框框會自動選定,如果沒有覆蓋到你資料集,可以手動調整
右下角有個「Repeat
This Selection」,點它後,就能把每一頁同個範圍的紅框框一次選起來。
接著再按下「Preview & Export Extracted Data」
就可以看到PDF檔變成一格格!
按下 Export
,會下載成 CSV 檔案
接著,用 Excel 打開 CSV 如果發現是亂碼,記得要改編碼(Unicode -UTF-8)
( ** 如果你的電腦是 Office for mac 2011 版本,或是Windows沒辦 法正確編碼,請改用Google試算表匯入csv檔案)
所以我們點選Excel中的「資料」〉「匯入文字檔」〉選擇剛剛下載的 CSV 檔
更改編碼,就會正確顯示中文。
把「逗號」勾起來,格子就會跑出來了。
直接插入現有工作表
完成,完整的資料格子跟內容!
如果上述步驟因為Excel緣故無法將CSV正確編碼,請改用Google試算表
用Google試算表匯入 CSV 檔的畫面。
分隔符字元請選「逗號」
匯入之後應該就可以正確顯示你下載好的資料!
沒有留言:
張貼留言