作者:台灣大學 翁瑋宏
接觸健保資料庫
對台灣的健保資料庫已經好奇很久,也久聞健保資料庫的規模之大、完整度 (?)、以及使用上的高複雜度。隨著自己對程式設計日漸熟悉,也愈來愈想了解,如何接觸這個龐大的體系。
坊間有許多書在講解 SQL 語法,或是 data cleaning 的招式等等。然而很少教學資源能抓著你的手,直接了當地告訴你、帶著你一步一步往前走,指導如何把這些基本功套到實際的資料,以及得到這些資料後要如何去分析。我認為這是這個 Workshop 帶給我最大的幫助。
先談技巧部分。本身已經有稍微的 programming 背景,實作部分上手起來其實很快,直接用文字編輯器就能達到效果。只是在實作時間內,還是沒有想到怎麼做出最後一個 figure,有點可惜。
以初學者角度來看,工作坊提供的作業環境是非常棒的,從修正好的 MySQL、Navicat,到統計軟體 MedCalc,都有著非常親切的 UI。對於程式設計新手來說,不用在 command line interface 上 key 指令,能大大降低大家對 coding 的抗拒程度!
講義裡非常完整地把 sample code 剖析完,令人感動(真的是一步一步往前走)。至於之後要如何去改變 query 的內容,我想能被激起興趣的學員,應該也有辦法自己到 Stack Overflow 之類的地方好好挖寶了!
程式碼之外
如何構思一篇健保資料庫的文章,這也是我被點醒的部份。以往大家都是先想到 idea,接著努力的去調整所有的 parameters,去配合自己的 idea。但是講師們一再提醒大家,健保資料庫不是萬用的,仍有其限制。還有 Reviewer 心中都有一個自己的 RCT。這提醒了我們,有時候是還是得用 data 特性去調整構思主題(現實是殘酷的?)。不過我想這樣的過程,可以有更多的想像與創意,例如選擇 Proxy 的巧思,真的讓人覺得相當有趣。
最後,是關於健保資料庫本身,這個工作坊帶給大家最重要的資訊,就是幫大家省下荷包,還能掌握到自己最需要的資料,順利做資料分析。畢竟健保資料庫無論是來源,或是購買項目,確實都非常複雜。若沒有人提醒,或許真的有可能花掉許多冤枉錢當學費。
學習當碼農
這一天的課程一如往常,仍然是一氣呵成。中途沒有什麼喘息的空間,也沒空在底下滑滑滑或是看 Facebook。午餐實作時間還是扒一口飯,雙手繼續學著當碼農(偶爾把辛苦的助教抓來問問題)。這段立即回饋的時間,對我來說仍然是價值非常高的部分。(這次想建議新思惟,要不要考慮用飯糰之類,比較簡單輕鬆食用的午餐?)
感謝婉君
先前自己一直在學習 data science 的知識與能力,但一直缺少資料庫的部分。感謝婉君在我一開始第一輪報不到名之下,幫忙密切注意,才能即時補上!
如此完整了解健保資料庫的架構與細節,往後不管是自己想做的很多 topic,或是與同學們的合作,相信都會更快速明確。能夠掌握這些資源,未來把 machine learning 與 data mining 應用在醫學資訊上,也會容易許多!
最新活動