2016年11月24日 星期四

2016/11/21 利用google試算表函式處理數據

本周重點為利用google試算表裡的函式,將數據從網頁上抓下來,也可以將某特定數(平均數、總和)算出,以便製圖前獲取該有的材料。

※回顧上週:
1. tabula是針對「無法複製」的pdf檔而設計,推薦使用。
2.若專題的數據難找,建議可以先從新聞報導中的「資料來源」中獲得「原始資料」。
3.傳播與文化這門課是將有文化反堵概念的報導,以資料新聞學的方式呈現,內容含括數據及圖表。

→建議閱讀:


如何處理數據?
本次練習將數據放置在google試算表內,進行函示運算。

1.      利用函式將網路數據放進試算表

2. 開啟一個新的google試算表,至1-1格,輸入importhtml,依照指示將網址貼進格式內,完成了資料匯入。

















3.  SUM(A:A) 可以將A範圍中的數據加總。

4. COUNTA(A:A) 可以計算出A範圍中的個數
















5.UNIQUE(A:A) 可以計算出A範圍中不重複的項目,將以列表產生結果,也就是能將重複的數值省略,變成單一數值呈現。
















記得看完要練習一下哦!

2016年11月20日 星期日

2016/11/14 資料庫介紹、爬梳數據

本周重點為如何獲得「數據」,並介紹能夠篩選數據的軟體,對於資料新聞學有概念後,接著就是學著獲取以及使用數據,再加以分析。




兩大疑惑:
Q1:資料新聞專題的流程大概長怎樣?
Q2:資料新聞一定要有數據嗎?

A1: 從問題 〉找資料 〉清理分析 〉工具製圖 〉視覺化,大概這五步能把專題做完,而這五件事都是在訴說你的故事。

資料新聞在傳播與文化課程裡所扮演的角色↓














A2:資料一定要數據嗎? 不一定,可以是以圖像為主的資訊圖表,但大部分的資料新聞仍是以數據集(Dataset)為基礎而產製的報導。















開始找資料!要去哪找?

· 介紹資料庫!
資料庫國內外還有非常多,這邊先介紹幾個。

1.    政府資料開放平臺:http://data.gov.tw
2.    台北市政府開放資料:http://data.taipei
3.    新北市政府開放資料:http://data.ntpc.gov.tw
4.    桃園市政府資料開放平臺:http://data.tycg.gov.tw
5.    台中開放資料平台:http://data.taichung.gov.tw/wSite/mp
6.    台南開放資料平台:http://data.tainan.gov.tw
7.    高雄市政府資料開放:http://data.kcg.gov.tw

內政部:不動產交易實價查詢服務網:http://lvr.land.moi.gov.tw/homePage.action

·         591 房屋交易網(實價登錄): 連結
·         信義房屋成交行情(實價登錄) 連結

上面這兩個平台都有自己的應用程式介面(API),但資料來源都是內政部。

行政院主計處 - 資料庫網址:https://www.dgbas.gov.tw/np.asp?ctNode=2824
主計處中不同面向的數據












薪資及生產力統計資料查詢系統:




























如果在左側選資料集,中文目前沒有資料,改成其他語言就會有不同資料呈現
如果選擇指標,就會有不同資料集的視覺化呈現(如下圖)












SheetHub資料庫:https://sheethub.com
有整理很多Raw Data,創始人王向榮、李慕約是很棒的人!





















軟體應用─把數據「抓」出來的好幫手!


1. Tabula
首先我們要下載「Tabula」軟體

記得要先安裝「Java」才能運行軟體,
(註:Windows如果無法正常開啟軟體,請重新執行Tabula軟體,開始出現黑色視窗的終端機時,請等它跑完一堆文字,接著在你的瀏覽器網址列輸入 http://localhost:8080,應該就會跑出可以上傳PDF檔的視窗)












這次選用的 PDF Data10510月商業設立登記清冊
(下圖為無法用手抓的PDF檔)
















Tabula 選取剛剛下載的PDF













按下 Autodetect Tables,紅色框框會自動選定,如果沒有覆蓋到你資料集,可以手動調整
右下角有個「Repeat This Selection」,點它後,就能把每一頁同個範圍的紅框框一次選起來。













接著再按下Preview & Export Extracted Data
就可以看到PDF檔變成一格格!













按下 Export ,會下載成 CSV 檔案
接著,用 Excel 打開 CSV 如果發現是亂碼,記得要改編碼(Unicode -UTF-8
    ** 如果你的電腦是 Office for mac 2011 版本,或是Windows沒辦   法正確編碼,請改用Google試算表匯入csv檔案)













所以我們點選Excel中的「資料」〉「匯入文字檔」〉選擇剛剛下載的 CSV














更改編碼,就會正確顯示中文。















把「逗號」勾起來,格子就會跑出來了。















直接插入現有工作表

















完成,完整的資料格子跟內容!




















如果上述步驟因為Excel緣故無法將CSV正確編碼,請改用Google試算表

Google試算表匯入 CSV 檔的畫面。
分隔符字元請選「逗號」















匯入之後應該就可以正確顯示你下載好的資料!