作者：嘉義長庚醫院耳鼻喉科蔡明劭醫師

健保資料庫是相當好用的研究工具

本研究主題運用健保資料庫為研究工具，探討睡眠呼吸中止症與眩暈的關聯性，刊登於耳鼻喉科領域 Q1 期刊 The Laryngoscope。

健保資料庫是相當好用的研究工具，近年來也有許多優質健保資料庫研究，回答各種重要臨床問題。健保資料庫也非常適合手邊資源不多的研究起步者，是個相當受中生代與新生代醫師歡迎的研究工具。儘管健保資料庫研究的門檻不算太高，能以較快的速度產出研究論文，但研究者仍須小心避免健保資料庫研究的常見錯誤。

健保資料庫研究團隊經驗分享

嘉義長庚在醫院長官的支持與計畫主持人的全心投入下，歷經數年努力，如今已擁有運作成熟的「健康資料卓越研究中心團隊」。

團隊成員皆學有專精，分別擁有公共衛生、流行病學、應用數學、大數據資料分析等專才。團隊的工作內容以進行健保資料庫及長庚資料庫（CGRD）研究，其他研究相關的統計諮詢等。「健康資料卓越研究中心團隊」成立三年來，已協助醫院各科別的臨床醫師發表了 40 篇以上的 SCI 論文。

研究方式是由醫師提出研究計畫案，再由團隊成員進行統計分析。每一個研究案皆由團隊成員共同檢視，一起發現問題，提出建議並修訂。本人十分榮幸能參與其中，協助檢視研究提案與分析結果，目前審視過的研究案已超過 100 件。歸納我的經驗，與研究同好們分享健保資料庫研究過程常犯的錯誤及解決之道。

常見錯誤一：醫師與統計分析人員缺乏溝通

若是自己跑資料的人則無須擔心此問題。但若採取合作方式，需委託別人寫語法、跑統計、製圖表，溝通就變得非常重要。因為剛接觸健保資料庫的研究者，對資料庫裡有哪些 item，能做那些分析還不熟悉，所以往往認知與負責跑統計的人有落差，造成合作過程不順。

更不好的情形是，醫師從初次分析結果就開始閉門寫作，不再與統計人員溝通。如此一來，完全沒有偵察錯誤機制的寫作方式，最後的論文成果必定漏洞百出。

解決方法：可參考嘉義長庚「健康資料卓越研究中心團隊」的運作方式，統計人員積極與臨床醫師溝通與討論，確認臨床醫師所想與統計人員所做是一致的。

雖然需要較多的人力與時間，但可確保論文的品質，維持醫院與研究團隊的名聲。而合作醫師在討論與修改研究的過程中，也能學到許多資料庫相關知識，研究做得一次比一次好。

常見錯誤二：研究設計無止境修改

我曾經對自己設計的研究案「自我感覺良好」。但實際執行的結果是，研究設計大小細節一改再改，一共修改超過 10 次才分析完成。讓我的研究夥伴們三天兩頭重跑統計、重貼圖表、白白耗費許多人力與時間。

解決方法：詳讀以下提到的常見錯誤並盡量避免犯錯。多做多學，必能漸入佳境。

常見錯誤三：診斷碼錯誤

診斷碼 ICD-9-CM 或處置碼寫錯，這是常見的小錯誤，卻可能造成嚴重的後果。輕則統計需重跑，重則在投稿 accept 後才被別人發現寫信到期刊主編（吐血三升！），但往好處想，可多寫一篇 correspondence。

解決方法：建議提案人與一位共同作者 double confirm，需 double-blind，不能預先知道對方的 coding，待各自制定好診斷碼後，再互相比對。此外，亦可參考之前的研究，將別人的 ICD-9-CM 對照自己查到的 ICD-9-CM，看是否相同。若有不同，思考是我們漏掉了，還是因研究設計不同所致。

常見錯誤四：covariates、exclusion criteria 一再修改

解決方法：完整文獻搜尋與閱讀。

例如：做「X 疾病患者可能得到 Y 疾病」的研究，須將會影響 Y 的重要變因列入 covariates。個人經驗是，若影響 Y 的疾病有很多，可將人數多的列入 covariates，人數很少或有爭議的就直接 exclude，如此可讓研究設計更嚴謹。以上方法只是研究設計概念，實際應用需視研究內容而定。

常見錯誤五：診斷定義及準確性缺乏說服力

解決方法：常用方法為採取 1 次以上住院或 3 次以上門診診斷才納入資料。但要注意一些急症往往只會來診一次，例如：concussion 或 head trauma 等外傷診斷，應採一次門急診就算才合理。此外，可以選擇只採信特定專科醫師的診斷，例如：vertigo、hearing impairment 只限定 ENT、Neurologist 醫師診斷。更有力的方式為引用相關的健保資料庫 validation 研究，如新思惟之友謝鎮陽醫師就是 validation 研究的專家。

常見錯誤六：統計不如預期，想辦法修改符合預期。

某些狀況下的結果不如預期，是可以找出原因並做修改的。例如：我的研究「sleep apnea and the risk of vertigo」中，第一次分析 DM、hypertension、stroke 對於 vertigo 的影響，算出的 adjusted hazard ratio 結果不如預期（預期是危險因子，但分析結果卻是保護因子）。其原因可能在於 sleep apnea、vertigo、DM、hypertension、stroke 彼此之間的相關性較高，導致校正時彼此干擾所致。

解決方法：此時須有經驗豐富的高手相救，修改設計或使用第二種以上的統計方法驗證，方能解套。例如：使用 subgroup analysis、sensitivity test、propensity score 等統計方法來釐清事實。然而，仍有些研究，在盡了一切努力後，仍無法得到預期的結果。這時，建議走出戶外，呼吸新鮮空氣，想想人生仍是美好的，然後就請放下吧，千萬別使用不正當的方法來製造數據。

常見錯誤七：部分患者追蹤期間太短

例如，收案期間 1997 – 2013 年，追蹤到 2013 年。2013 年納入的患者追蹤時間，皆會短於 1 年。

解決方法：將追蹤 < 1 年者排除，或修改收案期間為 1997 – 2011 年。如此，追蹤到 2013 年底，則可確保每位患者至少有 2 年追蹤期。

常見錯誤八：table 與 figure 呈現的數據不吻合

例如：table 呈現的是完整 16 年追蹤的數據，但 cumulative incidence curve 只呈現到第 10 年，兩者數據不吻合。

解決方法：table 與 figure 中 outcome、comorbidity 的累積發生率，可同步修改為追蹤至 10 年，使 table 與 figure 的數據一致。

以上幾個健保資料庫的常見錯誤與解決辦法，是我近年的心得歸納，希望一些分享能夠拋磚引玉，提供大家參考，對研究同好們有所裨益。相信許多比我更了解健保資料庫的學者朋友們，也能再進一步提出更深入的見解，大家互相討論，一起成長。期許在台灣的我們能攜手努力，讓健保資料庫研究更好，更值得信賴，更為世界所認同。

健保資料庫研究常見錯誤及解法

健保資料庫是相當好用的研究工具

健保資料庫研究團隊經驗分享

常見錯誤一：醫師與統計分析人員缺乏溝通

常見錯誤二：研究設計無止境修改

常見錯誤三：診斷碼錯誤

常見錯誤四：covariates、exclusion criteria 一再修改

常見錯誤五：診斷定義及準確性缺乏說服力

常見錯誤六：統計不如預期，想辦法修改符合預期。

常見錯誤七：部分患者追蹤期間太短

常見錯誤八：table 與 figure 呈現的數據不吻合

最新活動

追蹤訂閱

校友討論

心得總覽

近期文章

學員評價