首页 研究报告与论文 学术论文 研究资料的整理

 

中国医改评论

全文全文
会员 : 6
内容 : 1211
内容的浏览数 : 865464

Newsletter Subscribe
Email:
Visit newsletter online

中国医改评论
Powered by:
www.crcpp.org
www.cser.org.cn
联系我们
关于我们

京ICP备08009238号
研究资料的整理
作者:周恬弘   
星期三, 21 十月 2009 11:18

资料整理在研究中扮演重要的份量,要成为一个独立的研究人员,资料整理是必备的能力,不过这部分很少在正式的课程中学到,大多透过自己一次又一次的摸索与经验累积

 

研究资料的整理

周恬弘

http://thchou.blogspot.com/2009/10/blog-post_03.html

资料是研究分析的基础,除了理论推导的研究不需要资料之外,其他的研究工作都需要正确且齐全的资料,才有办法进行。在美国进行医管或健康行政的实证(计量)研究,大致上有三种资料来源。第一种是研究者自己设计问卷,透过问卷调查收集所需要的资料;这是属于一手资料的收集(primary data collection),这种资料收集方式可以研究全国性的样本,也可以针对某些特定的对象进行研究。下面两种则是属于运用现成的二手资料:首先是从相关的几种全国的资料库中挑出自己需要的资料,加以整合,这种方式绝大多数是以全国的样本做为研究对象;但是有时候研究的资料在这些全国的资料库中找不到,或是资料无法整合,这时可能得借由第三种方式,即针对可以找到资料来源的范围进行研究。


比如我想研究牙科诊所的效率变化,目前美国应是没有一致、长期收集的全美牙科诊所资料,但是有些州政府可能有定期收集或要求州内所有牙科诊所填报财务与服务量的资料,这时就可以缩小范围,针对某一或某些州的牙科诊所进行研究。或者,研究者也可以找某个全国的牙科连锁公司或集团一起合作,运用该集团旗下所有牙诊诊所的资料来做分析。总之,研究必须根据资料的取得程度调整探讨的范围,来回答所要研究的问题。通常,样本范围越大越好,这样可以推论的层面就越广。如果样本是来自某一州的资料,则所得到的结果通常只能代表这一州的情况,不能用来推测其他州的状况。这是研究的外部效度(external validity)问题。同样地,用某一集团所属机构的资料分析所得到的结果,可能仅适用说明该集团的经营成效,无法扩大类推到其他的机构。

 

我的毕业论文所用的资料来源是上述第二种方式,也就是将几个全国的资料库当中的相关资料整合成我所需要的分析资料档,分析对象是全国的医院样本。这种方式在美国医务行政学界的文献中很常见,其主要的好处是资料样本代表性很广,样本数很大,可是问题经常是没有一个资料库刚好具备所有我需要的资料,这些资料大多散在不同的资料库,首先要先确定哪些资料在什么资料库中可以找到,等全部都找到了,还必须加以汇整,当中花费不少苦工。以下分享这次整理资料的一些心得。


通过论文提案审查之后,我决定先进行资料的整理,如果确定资料齐全的话,对研究的进行会比较安心一点。虽然我对这些资料来源不是完全陌生,可是对于有一部分所需要的资料到底藏在哪里,甚至到底有没有,在没有真正找出来以前,还是不敢太笃定。此外,根据我之前的经验,这些资料库中有程度不一的遗漏或空白资料(missing values),而且在资料合并的过程中,也有可能产生新的遗漏资料。如果这些遗漏资料所占的比例不小的话,对资料品质影响可能很大,甚至引起分析的偏差,这时就必须用更复杂的计量分析模式去校正,头也就会变得一个两个大。

 

简单来说,我需要的资料包括:(1)美国每一家急性综合社区医院的基本资料(如床数、所有权属性、所在位置等等)、服务项目、服务量、总员工人数与护理人员数、基本财务资料、以及医院所在地区的资料(如总人口数、老年人口数、居民平均收入与失业率等等);研究期间是从1997年到2003年这七年。


我所需要的医院资料(基本资料、服务项目、服务量、总员工人数与护理人员数)可以在美国医院协会(American Hospital Association, AHA)的年度医院调查资料库中找到,我们系上每年都会向AHA购买此份资料库供老师与研究生做研究使用。这个资料库可能是有关美国医院的研究方面最被广泛使用的,好处是覆盖率与回覆率相当高,调查的项目众多,而且每年调查的内容都几乎完全一样,适合作跨时间的研究;问题是这份资料库的资料内容遗漏率不小,资料的正确性并未经过严格的稽核,有时可以发现很不合理的数值。

 

医院的基本财务资料主要来自Centers for Medicare and Medicaid Services (CMS)的医院成本报告资料库,这套资料库的正式名称是Healthcare Cost Report Information System (HCRIS)。由于Medicare在1983年以前对医院的给付是采论量计酬,根据医院平均成本订定各项服务的给付价格,而且还有给付资本设备的成本,因此CMS要求所有Medicare的特约医院都必须依照统一的报表格式提供成本与财务资料,供CMS计算医院服务的成本。所以学界都称此为医院成本报表(Hospital Cost Report)。不过后来CMS也收集各种Medicare特约的健康照护机构(如护理之家、居家照护、洗肾中心、精神疗养机构等)的财务报表并公布,所以后来名称才改成HCRIS。这套资料库的好处是资料齐全、详细、且品质较好,这是因为所有Medicare的特约医院都一定要依规定提报资料(美国绝大多数的医院都是Medicare的特约医院),而且不可造假,否则被稽查出来后是要负法律责任的。然而,这套资料库内容很复杂,其中光是医院的财务资料就散在100多份的报表里面,要完全弄清楚其中的内容并不容易,连教财务的教授也不见得都知道。此外,这套资料库还有一个问题,是每年度每家医院填报的财务资料期间并不完全一样,虽然大部分医院所提报的都是根据从某年10月初到隔年9月底之间的财务资料,也有不少数医院的资料期间跟别人都不一样,从小于100天到超过365天都有。这些问题都会增加资料整理与分析的难度,甚至影响到分析结果的正确性。

 

我还有用到各医院每一年DRG的病例组合指标(case mix index, CMI)数值的资料,这份资料可以直接从CMS的网站上下载,资料内容还算齐全,虽然有小部分的遗漏率。


最后,我所需要的医院所在地区的资料,是从Area Resource File(ARF)得来,这份资料是由美国卫生部下面的一个机构,从50多种资料来源(包括普查局的资料)汇整出来的全美各郡的健康照护资源、健康照护服务使用率、以及社经资料的资料库,资料相当完整,品质也不错。我们系上每年也都会购买最新ARF资料让老师与研究生使用。不过,要使用这份资料,必须有一个前提,就是定义医院所在的郡(county)为其主要服务市场。这当然不是最理想的方式,可是资料的基础是如此,也就只能顺应了。有些学者采用都会区(从邮递区号去重组)或地理资讯系统的方式(如医院方圆20英里的范围)去划定医院服务市场范围,但是资料处理起来都要增加好几倍的功夫。

 

确定了我所要的资料都在这些资料库中之后,接下来我必须从每一套资料库中在1997到2003年之间每一年的所需资料都分别整理出来,再将每一年的不同资料档加以合并为一份该年的全部资料档,然后将各年的资料档合并成一份最终的分析资料档。在档案合并的过程中,我是使用AHA的资料档做为基本档,将其他资料库的档案合并进来。在合并AHA、HCRIS、CMI的资料时,所使用的合并对照变数是Medicare的特约机构编号(Medicare provider ID number),这三个档案合并完成后,再透过全美通用的州郡编号(FIPS state & county code)将ARF档案与之合并。


这份资料档的笔数有三万两千多笔,每一年的医院样本数是四千多笔。资料档一完成之后,我就先去检查每一个分析变数是否有遗漏的资料,结果发现几个问题。首先是AHA每一年资料档中都有不少医院没有Medicare特约机构编号(Medicare ID),以致我在合并HCRIS与CMI档案时,这些医院的资料被排除在外。还好我有好几年的资料,因此我用AHA的医院编号(AHA资料库中给每家医院的专用编号)将每家医院的Medicare ID按年排列出来,做成AHA ID与Medicare ID的完整对照表,不过还是有50多家医院在这七年中完全没有Medicare ID,这些可能不是Medicare特约医院,由于数量不多,因此我就将这些医院排除在样本之外。最后,我用这张AHA ID-Medicare ID对照表,将每年AHA资料档中遗漏的Medicare ID补上去,再做档案合并,大幅降低资料遗漏率。

 

不过,CMI、ARF、HCRIS、AHA每年的资料档本身也都有遗漏资料,或合并过程中因为对照码不符而被排除所产生的遗漏资料。从分析的角度来看,资料遗漏分成两大类,一种是自变数的遗漏资料,另一种是应变数的遗漏资料。在多变量的回归分析中,任何一个变数有遗漏资料,遗漏资料所属的样本便会被自动排除在分析之外,使得实际样本数减少。更严重的问题是,如果因此被排除的样本数不少,且具有某种特性(比如以营利医院、小型医院居多),而这些特性又与主要的研究变数有相关的话,则会导致到研究结果的偏差。学界称此为「样本选择偏差」(sample selection bias),也就是说最后的分析样本已经与原来的样本有显著差异,这时所得到的结果并不能够代表原来所设定的研究样本的情况。因此除非能够确定这些排除的样本是因为「随机遗漏资料」(missing at random)所造成的,否则就要设法填补资料,降低遗漏率。


自变数遗漏资料的填补有很多种方法,有很复杂的,也有很简单的。最简单的是填入该变数的样本平均值,复杂的可以在现有资料中,找出该自变数与其他相关自变数的关系,透过回归去预测遗漏值的自变数,再将预测值填入遗漏资料中。

 

我用的方式还算单纯,因为我有七年的资料,而且总样本中大部分的医院都有一年以上的资料(也就是有一笔以上,比如A医院从1997到2003每年都有共七笔,B医院则有1998、2000、与2003年共三笔资料),大部分的自变数对每一间医院来说,每年之间的数值差异应该不会太大。如果某个变数中,某家医院某一年有遗漏值,我先用该医院在该变数中其他年份的平均值去填补,这样便又降低不小遗漏率,但还是有遗漏值。最后针对这些遗漏值,我就用样本平均值填补,并用一个虚拟变数去注明该样本在某个变数中有接受资料填补。这个虚拟变数在之后的回归分析中有两种作用,一个是检测该变数的资料填补是否会导致样本选择偏差,另一个作用是在回归分析中当作控制变数,以校正因资料填补所带来的样本选择偏差。


解决了自变数的遗漏问题,再来是应变数的遗漏值,这部分要比自变数的遗漏值更棘手。因为前面提到的自变数遗漏值填补方法不一定适用在应变数上面。我的应变数是每一间医院在某一年有没有开办居家照护服务,是一个二元变数,遗漏比例相当高,大概占总样本的14%。此时不管是医院的平均值或样本平均值都派不上用场,更不能用回归预测的方式去填补遗漏值。

 

计量经济学称此情况为「被遮掉的资料」(censored data)[1],因为所有样本的资料都有,只是一部份样本的应变数资料无法被呈现出来,这是受限应变数的(limited dependent variable)情况之一。就我所知,这时通常是使用Heckman selection model来处理,由于我的应变数是二元变数,所以要用Heckman Probit model。这部分的分析处理有时相当繁复,甚至现有的统计套装软体没有现成的功能可以运用,必须自己写程式去跑分析。


正在苦思如何处理这个问题的时候,我突然想到我在整理医院的财务资料时,有顺便收集医院开办的居家照护的基本财务资料(开办居家照护的医院在成本资料提报时,也要提供居家照护的财务资料),并汇整到最终的分析资料档中,包括居家照护的收入与几个主要支出项目的数字。由于HCRIS的资料正确性相当高,我就想到,如果某医院在某一年所提供的财务报表中,居家照护的收入是大于零的话,那这家医院在该年度应该是有开办居家照护才对;相反地,若其居家照护的收入是零或没有注明的话,则这家医院在该年度应该没有开办居家照护。我问我的指导教授这样的想法有没有问题,他说这样的假设应该是合理。因此我用HCRIS的资料为主,重新找应变数的数值,若HCRIS资料有遗漏的样本,我再使用AHA的数值,两者都遗漏的样本医院,我就假设这些医院在该年度并未开办居家照护[2]。透过这两种资料来源的混合运用,我取得相当完整的应变数资料,不仅资料品质比原本的好,还省去许多分析的难度与复杂度。不过为慎重起见,我在分析时特别去做敏感度分析,就另一种应变数的资料组成(以AHA为主,HCRIS为辅)做分析,比较这两种结果,发现结果差别不大。

 

这次的资料整理经验,让我学习到一个最重要的经验,就是收集资料时,尽可能多收集相关的资料,以及跨年或前后几年的资料,这些对遗漏资料的处理或填补都有帮助,可以提高资料的品质,并大大减少分析的复杂度,更重要的是,增加分析结果的正确程度。


此外,面对众多资料整并的工作,这次我一反过去一个档案一个档案处理的方式,改用写执行档去进行所有的资料整理与档案合并。这有几个好处,第一个是整理出来的资料档案内容有一致性;第二是省事,比如在整理每一年的AHA资料时,我只要写好某一年的整理程式,其他年的程式只要复制(有时须做稍微修改)就可以了;第三是正确度高,写好执行档交给电脑去整理资料内容,只要逻辑正确,结果应该都不会错;各别去处理档案内容很容易出错;最后,也是我觉得最重要的是,省下大量的时间与挫折感。经常我会发现自己少收集到某些资料,或某些资料要再做些处理,这时我不必从头做起,只要去改一下执行档的程式内容,让电脑重新跑一次,就可以很快得到最新的资料档。常用的统计软体,如Stata、SPSS、SAS都有执行档的功能。

 

还有,以前我遇过几次情况是整理过的档案资料,过一阵子回来看或是要再重新跑一些分析的时候,就想不起来当初资料是怎么整理的,甚至连有些变数的名称或内容是什么都没有印象,由于当时不是用执行档去整理资料,也就无从查起整理的流程或思路。如果当时是用执行档去进行资料的整理,要追踪就容易多了。此外,这次我还在整理资料的过程中,拿一本笔记簿,随时将资料档案来源、变数名称、新增变数的定义、档案合并的流程、过程中想到的问题与处理方式、每一阶段的资料笔数与删除笔数、选择或删除资料的条件与逻辑等都一一记录下来,以加强印象、厘清思绪、并辅助自己有限的记忆力。我觉得帮助很大。


最后,分享一个非专业的分析结果的整理与呈现方式。我目前是使用Stata做资料整理与分析工作,经常要将分析结果做成表格,贴到MS Word。据说Stata可以设计自己想要的表格型式来呈现分析结果,不过我还不会。可是若要将一个数字一个数字打到表格中,既费时又容易出错。后来我都是用土法炼钢的方式,将Stata的outputs,复制到文字档,再用Excel去读入文字档(有时分隔线要调整一下),便可以将分析结果放入Excel工作表中,这时要做分析结果的整理便相当方便,还可以做一些简单的运算,强化资料结果,或做成图表。等分析结果在Excel中都编排好,最后再复制贴到MS Word中就大功告成了。

 

资料整理在研究中扮演重要的份量,要成为一个独立的研究人员,资料整理是必备的能力,不过这部分很少在正式的课程中学到,大多透过自己一次又一次的摸索与经验累积。研究生在参与研究计画时多半要负责资料的整理,以及在进行论文研究的过程中获得实际的操作经验。但这只是刚开始,资料整理可能是一辈子都学不完的功课。我的毕业论文所用的资料是以机构为单位的资料,这算是最单纯的资料形态,我看过系上的老师或学长/学姊用病人为单位的资料,复杂程度要比机构的资料大上好几倍,一个小细节没考虑到,可能就全盘皆错。不过,当每次克服这些资料的挑战,达成研究目的时,就愈能享受其中的成就感。


[1] 另外一个因资料遗漏所引起的类似、但不相同问题是「被删除掉的资料」(truncated data),这是当某些条件的样本完全不存在的情况。

[2] 我也去比较AHA与HCRIS这种资料来源,在我的应变数上面的一致性有多大,发现有84%的样本是一致的。

Trackback(0)
Comments (0)add comment

Write comment
quote
bold
italicize
underline
strike
url
image
quote
quote
smile
wink
laugh
grin
angry
sad
shocked
cool
tongue
kiss
cry
smaller | bigger

security image
Write the displayed characters


busy