健保資料庫研究的種類
問:健保資料庫的研究設計 (study design),看到好多種:cohort、nested、matched……都看不懂,該如何正確選擇呢?
答:這是流行病學很重要的課題,不局限於健保資料庫。依照個人研究主題,沒有所謂「正確」的選擇。
cohort study(世代追蹤法):最傳統的觀察性研究,目前健保資料庫很大一部分都屬於這種研究設計。利用長期觀察、量大的特性,我們把病患區分成有吃藥、沒吃藥兩種,然後觀察其後續的療效(死亡率、中風、副作用) ,但如果碰到罕見疾病等,就必須延長追蹤時間,成本較高。
Case-control study(病例對照研究):以有病的人為對象,選取一組沒病的為對照組,比較兩組在暴露經驗上有無不同。常見的缺點是沒有辦法確定因果,無法得知發生率。
Nested case-control study (嵌入型病例對照研究):在 cohort 中 以 case-control 的概念比較治療效果,結合上述兩點優點,可以理解為「能判斷因果的病例對照研究」或是「可以處理罕見疾病的世代追蹤」。
Matching (配對):就像是 Randomized control trial 的 Randomization 過程,可用來「減少觀察性研究(例如:健保資料庫研究)的選擇性偏差」。
進一步閱讀,建議參考這篇:
http://www.bmj.com/content/344/bmj.e4209
樣本=母群體,適合哪種統計方法?
問:傳統統計方法都是因為目前研究都是隨機抽樣,樣本小於母體所發展,使用健保資料庫,以台灣來說,便是樣本=母體;醫學上使用何方法統計較適合?
答:這是相當有深度的問題,我們還是要定義一下,何謂母體 (population)?
這與我們的研究有很大的關係,如:我們想利用台灣地區 2300 萬人 1996-2004 年的資料,評估台灣地區兒童開刀後疝氣的發生率。
我們希望研究結果不只能夠適用於 1996-2004 年,更希望這是個因果關係,所以我們套用迴歸模型,我們利用「1996-2004 年的資料」去推測「古往今來的兒童」。
在這個例子中,「古往今來的兒童」比較像是母體 (population),我們就算用了「1996-2004 年台灣所有小朋友的資料」,嚴格來說還是必須稱之為樣本 (sample)。
Chen YC, Wu JC, Liu L, Chen TJ, Huang WC, Cheng H. Correlation between ventriculoperitoneal shunts and inguinal hernias in children: An 8-year follow-up. (放置大腦導水管可能增加小兒腹股溝疝氣發生率) Pediatrics 2011;128(1):e121-6. [SCI] [PMID:21690112]
您提到的應該是指當樣本數過大時,任何微小的差異都會變得顯著的問題,姑且稱之為 large sample size problem。
傳統的推論模式建築於虛無架設 (null hypothesis) 之上,如果虛無假設的機率小於 0.05,就推翻虛無假設,稱之為顯著。
以一個 80 case vs 80 control 的族群,odds ratio = 1.7, p value = 0.11 (被認為不顯著),但是當數目增加為 160 case vs. 160 control 時,odds ratio 一樣是 1.7 ,但是 p value = 0.02 (顯著),
因此一般來說,流行病學家建議是忘記 p < 0.05 的迷思,應該同時報告 effect size 與 confidence interval。
健保資料庫研究最常用的統計方法?
問:分析健保資料庫的時候,最常用到的統計/檢定方法為何?
答:目前最常用的統計,不外乎 Multiple logistic regression (多元邏輯斯迴歸),或者是 Cox regression(存活分析),我們課程所使用的 MedCalc 有很貼心的線上手冊說明。
http://www.medcalc.org/manual/logistic_regression.php
http://www.medcalc.org/manual/cox_proportional_hazards.php
如何避免 bias?
問:同樣的問題,會因為不同的統計方式可能有不同的結果,或者用了錯誤的方法得到錯誤的結果,如何避免看不懂或看不出來的 bias?
答:理論上,如果自己看不懂,或看不出來的 bias,是不可能看懂或看出來的 (繞口令嗎?XD)。
醫學是個觀察的科學,所以,我們在正式開始之前,要多閱讀別人的好論文,也從被批評的論文中,多思考邏輯上的缺誤,才能避免我們一下手就犯錯。
但別擔心,研究之路沒有人天生就會。所以課程設計,就是從「指定論文」的閱讀開始學習,帶著大家走過一次,並提供多次提問機會。
等大家獨立上路了,也可以繼續從 reviewer 的意見中學習,逐漸邁向高 impact factor 之林。
健保資料庫的方法學偏差
問:目前分析健保資料庫的統計方法、方法學上有哪些缺陷?有哪些方法學上的問題是未來需要再研究與突破的?
答:在方法學上,最顯而易見的問題就是選擇性偏差 (selection bias)。
例如:某癌症,可以開刀,不能開刀的,就吃藥治療。我們可以直接將病患區分成:「開刀族群」與「吃藥族群」,來比較開刀的好嗎?
不行的。很明顯,開刀族群一定是醫師和病患都覺得開刀比較好才會開刀,這樣開刀族群的效果就會被過分強調 (過好)。
現實生活中,我們應該找一群「本來應該開刀但是沒有開刀」的族群與「開刀族群」來做比較,才能證明開刀比較好。在比較族群的選擇上要特別注意,如果找不到好的比較族群,就必須仰賴複雜的研究設計,或是「配對」等方法才能正確的評估治療好壞。
另外,隨著健保資料庫逐漸廣為使用,很多研究者會利用世代追蹤 (cohort study) 來評估藥物的效果,immortal bias 將越來越常見,請務必要避免。
例如,為了比較年齡與諾貝爾獎的關係,我們把世界上的人區分成兩組,諾貝爾獎得主組與一般人,算一算平均歲數發現,諾貝爾獎得主組平均年齡比一般人高,而且具有統計顯著,得到結論年紀越大,越容易得諾貝爾獎。這當然是很明顯的錯誤,因為要活得夠久才會得到諾貝爾獎。
不只台灣,隨著資料庫文章越來越多,這種偏差也越來越常見。
BMJ 2010 年有一篇很好的文章,知名的台灣部落格 the New England Journal of Stupid 也寫過一篇中文說明。
如何克服審稿者的批評?
問:獨立作業,如何克服審稿者的批評?難道還是要再去找老師幫忙?
答:來自 reviewer 的批評永遠都存在,無論基礎研究、臨床研究、或是健保資料庫研究都有欣賞你的 reviewer 或是討厭你的 reviewer。通常比較好的雜誌,審查相對比較公平,但人都難免有好惡,也就難免有點偏心。克服審查者批評的原則有兩項:
- 盡可能滿足 reviewer 的要求。仔細面對 reviewer 的問題,好的雜誌審稿者不會無的放矢,誠實面對自己研究的弱點,尋求解套,若無法完全依照 reviewer 的建議修改,至少也要提出次佳的替代方案,讓人家感受到我們的誠意。
- 針對無法同意的批評「引經據典」的回覆。最好用該領域其他知名專家的論文來支持你的論點,權威人士都贊成我的理論了,你這位 reviewer 總不能連專家一起否定。
真的想找指導教授設法也可以,但是要確定老師很清楚你的研究內容,通常還是主要研究者最清楚自己論文的優缺點。
評估手術「預後」的寫作技巧
問:評估手術效果「預後」的資料寫作技巧
答:預後是大家最想知道的事,不論是某個疾病、某類藥物、某種手術等,但這也最難,因為這是在設法「預測未來」的事。
通常我們建議提供足夠的追蹤時間,至少要能說服大多數治療該疾病之醫師,這會因疾病及治療方式而有很大的個別差異,例如腦癌手術就需要討論 2-5 年內的復發率和存活率;但腰椎椎間盤凸出造成坐骨神經痛,開刀後馬上就知道疼痛是否解除。
健保資料庫友善期刊
問:健保資料庫分析相關論文投哪一類的期刊比較容易被接受?
答:不限,跟所有的研究論文一樣。依據分析的主題不同、嚴謹度、實驗設計,而有相對合適 (容易刊登)的期刊,目前台灣健保資料庫文章刊登從 impact factor 零點幾分的,到 impact factor = 30 的 JAMA 等級都有。
最新活動