完整了解健保資料庫架構與細節的工作坊

 

作者:台灣大學 翁瑋宏

 

 

NHIRD_20150125_0169

 

 

接觸健保資料庫

 

對台灣的健保資料庫已經好奇很久,也久聞健保資料庫的規模之大、完整度 (?)、以及使用上的高複雜度。隨著自己對程式設計日漸熟悉,也愈來愈想了解,如何接觸這個龐大的體系。

 

坊間有許多書在講解 SQL 語法,或是 data cleaning 的招式等等。然而很少教學資源能抓著你的手,直接了當地告訴你、帶著你一步一步往前走,指導如何把這些基本功套到實際的資料,以及得到這些資料後要如何去分析。我認為這是這個 Workshop 帶給我最大的幫助。

 

先談技巧部分。本身已經有稍微的 programming 背景,實作部分上手起來其實很快,直接用文字編輯器就能達到效果。只是在實作時間內,還是沒有想到怎麼做出最後一個 figure,有點可惜。

 

以初學者角度來看,工作坊提供的作業環境是非常棒的,從修正好的 MySQL、Navicat,到統計軟體 MedCalc,都有著非常親切的 UI。對於程式設計新手來說,不用在 command line interface 上 key 指令,能大大降低大家對 coding 的抗拒程度!

 

講義裡非常完整地把 sample code 剖析完,令人感動(真的是一步一步往前走)。至於之後要如何去改變 query 的內容,我想能被激起興趣的學員,應該也有辦法自己到 Stack Overflow 之類的地方好好挖寶了!

 

 

程式碼之外

 

如何構思一篇健保資料庫的文章,這也是我被點醒的部份。以往大家都是先想到 idea,接著努力的去調整所有的 parameters,去配合自己的 idea。但是講師們一再提醒大家,健保資料庫不是萬用的,仍有其限制。還有 Reviewer 心中都有一個自己的 RCT。這提醒了我們,有時候是還是得用 data 特性去調整構思主題(現實是殘酷的?)。不過我想這樣的過程,可以有更多的想像與創意,例如選擇 Proxy 的巧思,真的讓人覺得相當有趣。

 

最後,是關於健保資料庫本身,這個工作坊帶給大家最重要的資訊,就是幫大家省下荷包,還能掌握到自己最需要的資料,順利做資料分析。畢竟健保資料庫無論是來源,或是購買項目,確實都非常複雜。若沒有人提醒,或許真的有可能花掉許多冤枉錢當學費。

 

 

學習當碼農

 

這一天的課程一如往常,仍然是一氣呵成。中途沒有什麼喘息的空間,也沒空在底下滑滑滑或是看 Facebook。午餐實作時間還是扒一口飯,雙手繼續學著當碼農(偶爾把辛苦的助教抓來問問題)。這段立即回饋的時間,對我來說仍然是價值非常高的部分。(這次想建議新思惟,要不要考慮用飯糰之類,比較簡單輕鬆食用的午餐?)

 

 

感謝婉君

 

先前自己一直在學習 data science 的知識與能力,但一直缺少資料庫的部分。感謝婉君在我一開始第一輪報不到名之下,幫忙密切注意,才能即時補上!

 

如此完整了解健保資料庫的架構與細節,往後不管是自己想做的很多 topic,或是與同學們的合作,相信都會更快速明確。能夠掌握這些資源,未來把 machine learning 與 data mining 應用在醫學資訊上,也會容易許多!

 

 

最新活動

 

 

本篇發表於 2015 / 01 / 25 (日) 並標籤為 , , , , , , , , , , 。將永久鏈結加入書籤。