专利名称::肺癌诊断分析的制作方法肺癌诊断分析政府权利在此公开的一些研究由美国国立卫生研究院(NationalInstitutesofHealth)(ROl,CA10032-01)、退伍军人管理中心价值评价程序(Veteran'sAdministrationMeritReviewProgram)和肯塔基肺癌研究管理中心(KentuckyLungCancerResearchAdministration)提供资助。
背景技术:
:在美国和许多其他国家,不仅对于男人还有女人肺癌都是癌症死亡的主要原因。在过去的五年中,由此种疾病导致死亡的数量每年都在上升,仅仅美国就已达到约164,000例,大部分死于非小细胞癌(NSCLC)。这超过了乳腺癌、前列腺癌和结肠直肠癌的死亡率之和。许多专家相信肺癌的早期检出是提高存活率的关键。研究显示当疾病在早期、非转移期(localizedstage)被检出并且可用外科手术方法移除时,五年存活率可达85%。但是当癌扩散到其他器官特别是远端部位之后,存活率急剧下降,于是只有2%的患者可存活五年。不幸地,肺癌是异质性疾病(heterogeneousdisease),并且在到达晚期之前是无症状的。因此,只有15%的肺癌在早期、非转移期被发现。所以,迫切需要帮助筛查无症状群体的工具,以便在最早、最可治疗阶段检出肺癌。胸部X射线和计算机断层(CT)扫描作为用来检测早期肺癌的有潜力的筛查工具而被研究。不幸地,高成本和高假阳性率致使这些放射成像工具不适于广泛应用。例如,美国国家癌症研究所(U.S.NationalCancerInstitute)的近期研究得出结论用胸部X射线筛查肺癌可早期检测肺癌,但产生很多假阳性的检验结果,导致不需要的后续检验,Oken等,^wtw/o/A^"o"a/Ca"cer//7W"Mfe,97(24)1832-1839,2005。在参力口i式马全才妻4受基线X-射线的67,000例患者中,约6,000人(9%)有需要随访的异常结果。这些人当中,在最初的胸部X-射线检验后12个月之内,只有126人(6,000有异常X-射线的参加者的2%)纟皮-珍断为肺癌。在进行的采用CT扫描的试验中遇到了类似的有假阳性的问题。根据不确定的放射成像结果的数量,CT筛查的特异性计算为约65%。当估计每个执行的CT篩查扫描数量所检测的癌的数量时,专家提出关于每拯救一个生命的保健成本的严肃忧虑,因为大部分已发生的卫生保健成本可归因于在普遍扫描中发现的不确定的肺结节的数量,所述的不确定肺结节需要进一步调查,最终发现其中许多是良性的。PET扫描是另一种诊断选择,但是PET扫描是昂贵的,并且一般不适用于筛查方案。目前,年龄和吸烟史是被大量筛查研究用作选择标准的仅有两个风险因素。可检测放射成像明显的癌(〉0.5cm),以及隐匿性的和恶化前癌(低于放射成像检测限值)的血液检验可鉴别那些对于他们来说放射性筛查是最有保证的个体,并且事实上可减少需要后续工作(workup)的良性肺结果的数量。因此,明显地,迫切需要可克服前述的放射成像技术缺陷的改良的肺癌筛查和检测工具。发明概述本发明涉及以体液样本用于肺癌早期检测的分析、方法和试剂盒。尤其,本发明涉及通过评估如自身抗体生物标记的一个或一组标记的存在来检测肺癌。本发明可用于综合肺癌筛查策略,特别是与J:射成像和其他篩查形式一起应用时。本发明可用来富集用于进一步放射成像分析的群体,以排除肺癌的可能存在。简言之,本发明涉及一种检测患者体内肺癌可能存在的方法,一个实施方式是通过提供来自患者的血液样本并且分析患者血液样本中与肺癌5相关的一个或一组自身抗体的存在。可通过例如估计与小组成员(member)相关的癌的最大可能性鉴别所述小组。多种统计工具中的任意一种可用来估计多个变量对结果的同时贡献。本发明用于分析在主要CT筛查试验期间获得的样本,并且从风险匹配对照中区分早期和晚期肺癌,以及隐匿性疾病。在放射成像检测之前如五年之久,本分析以约90%的准确性预测肺癌的存在。本分析可用来作为用于无症状患者或高风险组患者的筛查检验,所述无症状患者或高风险组患者用可接受的检验和方案还未诊断出肺癌,换句话说,例如他们没有放射成像可检测的肺癌。本发明提供了一种除目前肺癌筛查方法,如胸部X-射线或低剂量CT,以外的高成本和低特异性的可选方法。本分析最大化了癌检出率,同时限制了需要进一步确诊的良性肺结节的检测,因此,是一种可容易地结合到综合早期检测策略中的强大的并且有成本效益的工具。本发明的这些和其他特征、方面和优点,参考如下描述和所附权利要求,可变得更好理解。发明详述病理状态的早期诊断是有益处的。但是,不是所有病理状态都有容易可检测的、简单的特征。其他病理状态在病因学或表型中,或贯穿其发展阶段是异质性的。在这种情况下,单一的、敏感的和特异性的诊断特征或标记是不大可能存在的。然而,现在可能开发使用多种标记的合适的诊断分析,所述标记单独并没有足够的预测能力,但在某种组合中,一组标记有足够的特异性和敏感性用于实际应用。此外,多重技术和数据处理能力使得能够灵活开发对于特定群体或普遍群体来说易于应用和有更强预测能力的特定化的和个性化的诊断分析。本发明提供了新的用于检测疾病如肺癌的比传统方式更早和更准确的分析和方法。简言之,为了一组抗体生物标记存在与否,获得并分析来自患者或受治疗者的样本,例如血液样本。对于肺癌,应用一个或一组标记,每个标记以某种程度与肺癌相关联,并且当应用一组标记时,其中大部分标记在异质性群体中产生患有肺癌的可能性的可预测性测量。如以下更详细陈述所示,根据本发明的分析和方法能正确鉴别患有早期和晚期肺癌的患者。患有早期肺癌的患者的鉴别是特别有价值的,因为目前的分析和筛查形式几乎没有能力以有力的和有成本效益的方式做到。与目前应用的经常是昂贵的分析相比,本筛查分析提供了更大的可预测性并产生了更少的假阳性。通过应用能够同时检验大数量样本的分析格式,例如用微阵列,本分析也是有多种用途的,相对于任何群体的对照样本可以并行方式运行以获得高度可信的区别数据,其中为了尽可能多的参数,多个对照被匹配到检验群体。那使可能产生的和可能混淆结果的群体差异得到校正,例如种族、性别、年龄、多态性等等。定义如此处所用,以下术语应有以下含义。"肺癌"意思是肺里的恶性过程、状态和组织。"蛋白质"是肽、低聚肽或多肽,这些术语在此可互换使用,其是氨基酸的聚合物。在文库的情况中(inthecontextofalibrary),多肽并不需要编码有生物活性的分子。目标抗体与抗原决定簇(epitope)或决定簇(determinant)结合。抗原决定簇是完整的功能分子的部分,并且在蛋白质的情况中,可包括少至大约三个至大约五个连续氨基酸。"归一化"涉及计量或测量的统计学处理来校正或调整对观察结果的背景和随机干扰,以确定所述计量、统计或测量是否是反应的真实反映、响应或结果,或者是不显著的和随机的。"非小细胞癌"(NSCLC)是肺癌的亚型,与特征为小、卵形细胞的也称为燕麦形细胞癌(oatcellcancer)的小细胞性癌相比,所述非小细胞癌占所有肺癌的约80%。鳞状细胞癌、腺癌和大细胞癌包括在NSCLC亚型中。"体液"是指从人体获得或衍生的任何液体样本,例如血液、唾液、精液、泪液、组织提取物、分泌液、体腔洗液、血清、血浆、组织液和诸如此类可用作检验的患者样本。优选地,然而流体可在检验之前经过处理,例如可通过离心澄清。体液样本是流体样本。"血液样本"一般意思是从个体获取的静脉血的小份。血液可被处理,例如用肝素或EDTA灭活凝血因子,并且移除红血细胞来产生血浆样本。血液可允许凝结,并且固态和液态相可分离来产生血清。所有这些"处理过的,,血液样本均在如此处所用的"血液样本,,的定义范围之内。"抗原决定蔟"意思是与抗体相结合的特殊的分子结构。同义词是"决定簇"。多肽抗原决定簇可为少如3至5个的氨基酸。"生物标记"表示用来评估并且发现对于预测结果有用的因子、指标、得分、计量、数学处理和类似物,例如生物实体中的目前状态或未来健康状态。生物标记与标记是同义的。"小组(panel)"意思是为了本分析而被一起测量的标记的汇编集。小组可包括2个标记、3个标记、4个标记、5个标记、6个标记、7个标记、8个标记、9个标记、IO个标记、11个标记、12个标记或更多标记。本申请中所教导的并且可应用于本发明的实践中的统计学处理和分析方法,提供了在所感兴趣的分析中的若干告知性标记的任意一种的用法。"结果"是那些所预测的或检测的。"自身抗体"意思是针对包括病理细胞例如^f皮感染细胞和肿瘤细胞的"自体"(自身(self))蛋白质的免疫球蛋白或抗体(在此术语可互换使用)。在这种情况下,针对肿瘤的抗体是从来自个体自身的肺瘤衍生的,是他/她自身细胞的遗传畸变。"加权和"意思是来自单独的标记的得分的汇编,每个所述标记都有预测值。有更大预测值的标记对和的贡献越多。单独标记的相对值用已知统计范例如对数回归统计地推导出,以最大化多变量表示的值。可应用许多商业可得的统计学软件包。在更多因素的公式如回归方程中,每个因素(标记)的"权(weight)"显示为那个因素的系数。"统计上显著的"意思是不大可能只与机会相关的差异。"标记"是在诊断中被评估和可用的因子、指标、计量、得分、数学处理和类似物。标记可为例如多肽或抗原,或可为结合抗原的^t体。标记也可为结合对或结合配偶体(bindingpartner),对彼此有特异性的作为实体的结合对或结合配偶体中的任意一个,例如抗体和抗原、激素和受体、配体和该配体所结合来形成复合体的分子、酶和辅酶、酶和底物等等。"预测标记"是用已知技术4企测到肺癌之前就已存在的标记。因此,本分析可以在患者体内发现放射成像可检测的癌之前检测到肺癌特异性自身抗体,例如,在注意到放射成像可检测的癌之前长达五年的时间。这种自身抗体是预测标记。"目标群体,,意思是被特定标记、状态、条件、疾病等等为代表的群体的任意子集。因此,目标群体可为患有特殊形式或阶段的肺癌的特殊患者,或例如,吸烟群体。目标群体可包括有一个或多个危险因素的人。目标群体可包括有可疑检验结果的人,例如需要进一步和更及时监测的肺内异常的存在。"放射成像"涉及任何成像方法,例如CAT、PET、X-射线等等。"放射成像可检测的癌"涉及可用放射成像装置诊断或检测的癌。癌的存在大体上由组织学确定。"组织样本"涉及来自特殊组织的样本。对于液态形式的组织样本,样本可为体液或可来自液态组织,例如血液,或处理过的血液小^分。上述短语也涉及从实体组织获得的流体,例如分泌液、用过的组织培养液、石争实体组织的洗涤物等等。生物标记选择可通过使用任何对技术人员来说可得的方法,来选择和鉴别与肺癌相关的标记例如自身抗体,以及与之有特异性亲和性或和其结合的蛋白质。在抗体生物标记情况中,若干种免疫学为基础的方法中的任意一种均可用来实践。如本领域所知,适体、核酸适体(spiegelmers)以及其他有结合9特异性的相似物,也可用于代替抗体。许多已知的依赖抗体-抗原反应的高通量方法也可在本发明中实践。可应用例如减法选4奪(subtractionselection)等等,来比较来自目标群体中个体的分子和那些来自对照群体的分子,以鉴别任何肺癌特异性的分子。可选地,目标群体和正常人(对照)群体样本可用来鉴别来自分子文库中对目标群体特异性的分子。可通过用抗体作为探针来筛查候选分子的文库,用文库来来实践亲和性选择的形式。应用抗体来筛查候选者称为"生物淘篩(biopanning)"。然后验证目标群体特异性的分子和其用法,以及然后确定单独标记作为目标群体成员的预测指标的能力。合适的手段是获得分子文库而无论是否对肺癌特异性,并且针对结合目标群体成员中抗体的分子来筛查文库。因为蛋白质或多肽抗原决定簇可为少至3个的氨基酸,但是可在长度上少于10个氨基酸,在长度上少于20个氨基酸等等,文库中个体成员的平均尺寸是设计选择。因此,文库的更小成员可约为3-5个氨基酸以模拟单个决定簇,而20个或更多氨基酸的成员可才莫拟或包括2个或更多决定簇。文库也不需限定于多肽,因为其他分子例如碳水化合物、脂质、核酸和其组合可为抗原决定簇,并且因此用作或用来鉴别肺癌的标记。因为生物标记鉴别过程寻求鉴别抗原决定簇而不是完整的蛋白质或其他分子,虽然应用来自肺癌患者的样本可增强鉴别合适肺癌生物标记的可能性,但是被扫描或筛查的文库不需为肺癌特异性的,而是从正常个体的分子获得,或可从随机分子群中获得。然而抗原决定簇,或交叉反应分子在肺癌患者体内存在,并且是免疫原性的,与包括抗原决定簇的分子功能无关。因此,随机多肽文库是商业可得的,例如来自Clontech和NewEnglandBiolabs(NEB)。通过应用例如在生物系统中普遍发现的二十种氨基酸,这些文库包括大多数(若不是所有)可能的"成员(mers)"排列。因此,这种使用20种氨基酸的随机四聚物或四肽文库可包括大多数,若不是所有的理论上的1.6xl()S种四肽。一些文库被设置为用来在合适宿主例如病毒粒子内表达的相应编码寡核苷酸。因此,如本领域所知的"随机"用于此处,在多肽情况下,多肽被产生为,例如,多肽可能排列的文库或库之一,或可不考虑来源、结构或功能来合成,这里的每个残基可为残基种类中的任意一种。那些方法的实例描述在应用T7肺癌特异性的cDNA噬菌体文库和M13随机肽文库的实施例中。如本领域所知,两者均可在噬菌体展示文库中携带。所用T7噬菌体NSCLCcDNA文库之一(Novagen,Madison,WI,USA)是商业上可得的,而另一个T7文库建自腺癌细胞系NCI-1650(赠自H.Oie,NCI,国立卫生研究院,Bethesda,MD,USA)。因此,如本领域所知,可建立噬菌体文库。揭:取和选择来自目标组织或细胞的总RNA。实施第一链cDNA合成,保证N-端和C-端氨基酸序列两者的呈现。cDNA产物连接到相容的噬菌体载体内以产生文库。该文库在合适的细菌宿主内扩增,并且对于裂解性噬菌体例如T7,可裂解细胞以获得噬菌体制备物(phageprep)。溶胞产物在标准条件下测滴度(titer)并在纯化后储存。对于其他噬菌体,病毒可排出到培养基中,例如M13的情况,这种情况下病毒从上清液中收集并且测滴度。用组织样本,优选地流体样本,如来自肺癌患者的血浆或血清,和用类似的组织样本,如来自正常健康供体的血浆或血清来生物淘筛或筛查噬菌体文库,以鉴别肺癌患者体内可被配体例如循环抗体识别的潜在的展示分子。在一个实施方式中,组织样本是血液样本,例如血浆或血清,并且其目地是鉴别被在目标群体,如,非小细胞肺癌患者的血浆或血清里发现的抗体识别的标记。为了从文库中移除被非目标群体的抗体识别的噬菌体,噬菌体展示文库例如被暴露到正常血清或血清池。未反应的噬菌体从那些与非目标群体样本反应的噬菌体分离。然后未反应的噬菌体被暴露到NSCLC血清,来分离被NSCLC患者的血清中的抗体识别的噬菌体。反应的噬菌体在合适的细菌宿主内被收集、扩增,溶胞产物被收集、储存并标ii识为"样本l"或"生物淘筛1"。生物淘篩和扩增过程可重复多次,大体上用相同的对照和目标样本来增强纯化过程。来自生物淘篩的噬菌体代表更可能包括被来自NSCLC患者样品中的抗体特异性识别的表达分子的富集群体。由于许多噬菌体文库表达多肽,所选噬菌体可说成为表达和代表了NSCLC相关的抗体的"捕获肽(capturepeptide)"。为了进一步选择表达与NSCLC特异性抗体相结合分子的噬菌体克隆(phageclone),在生物淘筛中所选择的单独噬菌体溶胞产物可用Arrayer(Affymertrix,SantaClara,CA)机械地点在例如载玻片(slide)(SchleicherandSchuell,Keene,NH)上,以产生带有与NSCLC患者血清中抗体相结合的多个候选噬菌体表达分子的微阵列。为了鉴别哪些噬菌体展示分子可能是NSCLC特异性捕获分子(能与NSCLC特异性抗体结合),筛查载玻片和例如单独NSCLC患者血清样本,理想地,不是用于生物淘篩中的那些血清样本,一起培养,并且用标准免疫分析方法学进一步筛查。如本领域所知,可通过例如有合适免疫试剂的双色标记鉴别结合到噬菌体上的抗体,其中噬菌体载体表达产物由第一颜色的或可检测的报告分子标记,来说明每个部位表达产物的数量,并且结合到噬菌体表达的多肽上的抗体由第二颜色的或区别于第一报告分子的可检测的"l艮告分子标记。合的捕获分子的数据的一个方便方式是对显示载玻片上所有多肽的平均信号和标准偏差的多个变量进行计算机辅助回归分析。针对单独噬菌体进行统计处理以确定特异性,并且还针对多个噬菌体进行统计处理,以确定是否噬菌体的子集可提供更强的预测能力来确定样本是否来自患有或可能患有NSCLC的患者。监测多个样本的统计处理使得在分析中能确定差异性的水平。当群体釆样增加时,差异性可用来评估分析之间的差异性,并提供可靠的群体参数。因此,当例如信号〉1、>2、>3或有到回归曲线(芯片上的平均信号)的更大标准偏差时,比在载玻片、芯片等等上的其他噬菌体在更大程度上与患者样本中抗体相结合的噬菌体被认为是候选物。在一些在此处所述的实验中,候选物代表由T7文库生物淘筛四次所构建的筛查芯片上噬菌体展示多肽的约1/100。为了区分NSCLC患者的样本和非NSCLC群体的样本中的独立预测值,候选噬菌体克隆被汇编在"诊断芯片"上,并且被进一步评估。为了显示/检测/鉴别受治疗者体内放射性可检测肺癌的存在或将来存在的能力,选择诊断标记。由于一些病情有多个病因、多个细胞起源等等,并且有任何疾。允驹谝熘市缘谋尘爸校蛔榛蚨喔霰昙强啥阅侵痔厥獠∏楦佑性ぜ曰蛘锒。肺癌就是一种这样的病情。如生物统计技术所知,有若干不同的统计方案可实施以确定相关多重变量的共同预测能力,例如一组标记或带有一组标记的反应性。因此例如动态统计模型可用来解释来自多个因素的数据,以便依靠应用这种因素的两个或更多个来开发预后检验。其他方法包括应用条件概率的贝叶斯(Bayesian)建模、最小二乘法分析、偏最小二乘法分析、多重对数回归(logisticmultipleregression)、神经网络、辨别分析、分布无关基于等级分析(distribution-freeranked-basedanalysis)、其组合、其变化等等,以为了包含在诊断分析中而选择一组合适标记。目的是操作多个变量,然后处理数据以最大化所需计量,参见例子,例如Pepe&Thompson,Biostatistics1,123-140,2000;Mclntosh&Pepe,Biometrics58,657-664,2002;Baker,Biometrics56,1082-1087,2000;DeLong等人,Biometrics44,837-845,1988;和Kendziorski等人,Biometrics62,19-27,2006。因而,在某些环境下,统计处理寻求最大化预测计量,例如接收者操作特性(ROC)曲线下的曲线下面积(AUC)。依靠所选择的变量集,所述处理产生了公式途径或算法来最大化结果,以显示任意一个或所有变量对最大化结杲的相对影响。标记的相对影响可在把关系描述为变量系数的推导公式中看到。因此例如在如下所述的例证研究中鉴别的五个标记的两个小组被从这样的分析中选出,并且最大AUC、得分由包括五个标记的公13式以及公式中任意一个标记的相对加权描述,以获得表示为任意一个变量系数的最大预测能力。系数代表加权,并且推导公式可看作为产生加权和的加权变量之和。目的是,在所选择的并且优选地最小的多个变量(标记)中最大化例如特异性和敏感性或阳性预测值时找到平衡,以便根据那些参数能得到有力的诊断分析。变量对最大化结果的加权或影响从目前被确定和分析的数据中推导,并且当所分析患者的数量增加时被重新计算。当患者数量增加时,代表平均值附近的可信界限值的群体平均值的计量的可信度也增加。如在下文中实施例中提到的,例示的五个标记小组包括具有超过CT扫描中所观察到的特异性的单独特异性的标记。因此,因为本分析法可如目前标准同样有效的用于诊断肺癌,并且以更低成本和以更非侵入性的方式,具有特异性大于约65%的标记中的任意一个可用于作为肺癌诊断分析的有利条件。此外要注意,例示的用于T7噬菌体的五个标记一起提供比任意一种标记可提供的更大的预测能力,无论何种计量。标记可在不同亚群体中是预测性的,或者两个或更多个标记的表达可协同,例如,他们可具有共同的生物存在或功能。总合预测值不必是可提供不同预测准确性程度的标记的加和以及不同组合。五个标记组合和用来最大化预测能力的统计处理是基于研究的参考群体的结果。因此,因为两个或更多个标记的协同存在以及基于多个标记,例如以下所教导的五个标记小组中的一个的诊断计量,所以用五个标记来检验患者样本,并且诊断,理论上,是基于五个标记来计算的。如此处讨论的,因为统计处理,如对数回归,任何一个对多变量计量有贡献的变量可对最大化总值有更多或更少的贡献。如果患者有得分、总分以及类似的五个标记的总合计量的至少30%、至少40%、至少50%、至少60%或更多,甚至在一些环境中,因为对一些或更多重加权标记是显阳性的,患者可对一个或更多标记显阴性,则那个患者更有可能^皮认为是肺癌阳性。可用为参考或标准值的、可以是群体平均值的临界值得分、总分、以及相似物,以及与所述得分、总分以及相似物有相似性的、来产生指示肺癌存在可能性的阳性检验结果的患者/实验样本可接受水平,是设计选择,并且可通过提供检测阳性样本的可信范围或水平的统计分析来确定,或者冒着假阳性的风险根据经验开发。如上所教导的,所述水平可为五个标记或群体总和、参考值等等的总合计量的至少30%、至少40%、至少50%、至少60%或更多。临界值或"耐量",即,相对于群体得分、总分以及相似物的患者得分、总分以及相似物的可接受相似性程度可增加,换句话说,患者得分必须特别接近群体得分来增加敏感性。如本领域已知的,标记或一组标记的预测能力可使用若干统计中的任意一种来测量,例如特异性、敏感性、阳性预测值、阴性预测值、诊断准确性、例如,是特异性和敏感性之间关系的ROC曲线的AUC,虽然已知ROC曲线是预测值的相关考虑因素,等等。因为与单独应用任意一个标记相比,一起考虑的多个标记的更大集合预测能力,所以应用多个标记使得诊断检验能更加有力,并且更有可能在更大的群体中诊断。如下更详细的讨论,本发明预期不同分析格式的应用。微阵列使得多个标记和样本能同时检验。因此,若干对照,阳性和阴性,可包括在微阵列中。然后分析可运行多个样本的同时处理,例如来自一个或多个已知受感染患者,和一个或多个来自正常人的样本,连同一个或多个将要检验和比较的样本、试验、患者样本、将要检验的样本等等。在分析中包括内部对照允许了在分析内对信号强度进行归一、校准和标准化。例如,每个阳性对照、阴性对照和试验可多份运行,并且多个样本可为系列稀释(serialdilution)。对照和试验部位也可在微阵列装置上随机安排,以最小化由检验装置上样本位置引起的变化。因此,这种带有内部对照的微阵列或芯片使得能在微阵列或芯片上同时诊断所检验的试验(患者)。由于合适的对照被考虑,并且如果标记小组是那些单独含有合理地高预测能力的例如,有>.85的ROC曲线的AUC,以及>.95的五个标记的总AUC,那么可获得所关心的诊断结果内容,因此,这种用对照方式的多元检验和数据釆集的方法使得能在分析装置内诊断患者。当小组的每个标记^皮发现含有相对可比的特征,例如下面那些实施15例,分析可用定性方式操作。因此,肺癌患者样本可能对所有五个标记呈阳性,则这个样本非?赡苁欠伟┭粜。通过如此处讨论的根据把五个标记作为整体来确定机率,获得用于患者的五个标记的计量的和或得分以及然后与通过如上面所讨论的统计工具推导的标记的预测能力比较所得数字,来证明其合理。因为四个标记的能力可能保持是实质性的,四个标记呈阳性的患者,也应有风险地考虑,可诊断为肺癌和/或应更详细地检查。只有三个标记呈阳性的患者,可引发重新检验的需要,用其他标记的检验、放射成像或其他检验,或者可被要求在另外所提供的时间间隔用本分析做另一次检验。因此,对于n个标记的小组,有推导的预测能力公式,例如回归公式,所述^^式限定了定义五个标记相对结果的关系的最大可能性图。当少于n个标记,患者可为阳性,在这种情况下,当大部分如50%或多于一半的标记存在于该患者中,则此患者可考虑为阳性,或可能为阳性以进行进一步的考虑。此外,由于一些小组标记可对特殊疾病例如NSCLC是特异性的,患者应展示肺疾病潜在症状的明显依据,并且患者需要进一步分析以排除其他月巿疾病。因此在任何一种用n个标记的分析中,初步的、定性的结果可根据所测标记总数的阳性信号的总数来获得。合理的临界值可为对50%或更多的标记呈阳性。因此,如果四个标记祐:才全验,对标记中的2个、3个或4个呈阳性的样本可被假设地考虑为可能患有肺癌。如果五个标记被检验,对3个、4个或5个标记呈阳性的样本可被假设地考虑为阳性。临界值可根据设计选择来变化。根据数据的采集和数据统计处理,从群体的立。呕谋昙切∽榭梢允嵌模⑶铱伤媸奔浔浠伤孀判卤昙堑目⒍浠伤嫒禾灞浠⒃黾佣浠鹊。此外,当所检验群体尺寸增加,如果标记是生物学或机械学相关的,标记子集的可信度、加权参数和诊断准确概率的可能性可变得更肯定,并且因此,偏差、可信度限值或误差限值将降低。因此,本发明也预期应用可用于普通群体的标记的子集。可选地,所感兴趣的分析装置可包括仅一个标记的子集,例如用于如下教导的实施例中的为某个群体优化了的五个标记的小组。编码多肽的嗟菌体克隆插入物(encodingpolypeptidephagecloneinsert)可被分析来确定所表达多肽的氨基酸序列。例如,噬菌体插入物可利用商业上可得的噬菌体载体引物(phagevectorprimer)PCR扩增。根据尺寸差异和PCR产物的酶消化形式,鉴别独特的克。缓蠖捞氐腜CR产物纟皮纯化和测定序列。通过用BLAST搜索程序与已知序列例如GenBank数据库比较来鉴别编码的多肽。因此例如下面的表1和表2总结了结合肺癌患者体内自身抗体的肺癌cDNA的T7噬菌体克隆。表l<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>噬<table>tableseeoriginaldocumentpage19</column></row><table>19<table>tableseeoriginaldocumentpage20</column></row><table>*在这里和后面表中的噬菌体克隆名字的字母部分作为实验室名称是固定的。如此处所用的,噬菌体克隆名字的数字部分是克隆的明确鉴别。T多余克隆。他克隆。表2<table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table>噬菌体克隆#假定ID-基因符号假定肽序列核酸序列G740CD44转录子变体5NSVLNECWLQNQFLVLYQRSRREETFDLSGKAKCT(SEQIDNO:44)AATTCAGTATTGAATGAATGTTGGCTACAAAATCAATTCTTGGTGTTATATCAGAGGAGTAGGAGAGAGGAAACATTTGACTTATCTGGAAAAGCAAAATGTACTTAAGAATAAGAATAACATGGTCCATTCACCTTTATGTTATAGATATGTCTTTGTGTAAATCATTTGTTTTGAGTTTTCAAAGAATAGCCCATTCTTCATTCTTGTGCTGTACAATGACCACTGNTTATTGTTACTTTGACTTTTCAGAGCACACCCTTCCTCTGGTTTTTGTATATTTATTGATGGATCAATAATAATGAGGAAAGCATGATATGTATATTGCTGAGTTGTTAGCCTTTTA(SEQIDN():45)G313G1750G1792G1896G1923G2004L1839L1857桩蛋白(PXN)NSRPKRVQHPSTSFSEELAGLGSKEGVSKYSSL(SEQIDNO:46)AATTCTAGGCCCAAAAGGGTGCAACACCCTTCAACCAGTTTCAGTGAAGAGCTTGCTGGCCTGGGAAGTAAAGAAGGGGTTTCCAAATACAGCAGTTTATAAAACAGTCCTGGTGAGCTATGAAGTGAAAGAGGG(JGAGTCACAGA(;CTGCTCCCAGTTCACCTGCTTGTGCTAAGAAACAATAAAATACAAATTGCTTCCCCACCCCAACCCTCAGTACAAAGCAAACTTCACACCAGAGCCACCATCAGTGACAGGCCCAGTGGCGGTGGATGAGGAAGCTT(SEQIDNO:47)L1676L1829L1841L1916BMI-1NSARDRGETMGMWAREPRSGLAAPPSPAE(SEQIDNO:48)AATTCAGCCAGAGATCGGGGCGAGACAATGGGGATGTGGGCGCGGGAGCCCCGTTCCGGCTTAGCAGCACCTCCCAGCCCCGCAGAATAAAACCGATCGCGCCCCCTCCGCGCGCGCCCTCCCCCGAGTGCGGAGCGGGAGGAGGCGGCGGCGGCCGAGOAGGAGGAGGAGGAGGCCCCGGAGGAGGAGGCGTTGGAGGTCGAGGCGGAGGCGGAGGAGGAGGAGGCCGAGGCGCCGGAGGAGGCCGAGGCGCCGGAGCAGGAGGAGGCCGGCCGGAGGCGGCATGAGACGAGCGTGGCGGCCGCGGCTGCTCGGGGCCGCGCTGGTTCiCCCATTCJACAGCGGCGTCTGCAGCTCGCTTCAAGATGGCCGCTTGGCTCGCATTCATTTTCTGCTGAACGACTTTTAACTTTCATTGTCTTTTCCGCCCGCTTCGATCGCCTCGCGCCGGCTGCTCTTTCCGGGATTTTTTATCAAGCAGAAATGCATCGAACAACGAGAATCAAGATCACTGAGCTAAATCCCCACCTGATGTGTGTGCTTTGTGGAGGGTACTTCATTGATGCCACAAC(SEQIDNO:49)23随机多肽文库也可用来鉴别与NSCLC患者但不是正常人体内循环的抗体结合的候选多肽。因此,例如通过使用与上文所描述的技术相似的技术,例如用微阵列,以及本领域已知的技术,包括融合到病毒次要衣壳蛋白质(virusminorcoatprotein)的109种随机多肽的噬菌体展示肽文库可筛查与肺癌患者抗体结合的捕获蛋白质。所用的一个M13文库(NewEnglandBiolabs)表达了7个氨基酸的多肽插入物,作为噬菌体表面上的环状结构。如此处所描述的,文库被生物淘筛来富集被NSCLC患者血清中循环抗体特异性地识别的噬菌体表达蛋白质(phage-expressedprotein)。所选克隆的噬菌体裂解液被机械地(Affymetrix,SantaClara,CA;Arraylt,Sunnyvale,CA)双份点到载玻片上(SchleicherandSchuell,Keene,NH)。排列的噬菌体与NSCLC患者的血清或血浆样本被共同培养来鉴别被循环的肺肿瘤相关抗体结合的噬菌体表达蛋白质。用已知的免疫分析法,并以合适的报告分子,指示载玻片上所有多肽的平均信号和标准差的计算机生成的回归曲线用来鉴别被NSCLC患者血浆内抗体结合的肽。结合相当数量的来自NSCLC血浆样本的抗体的噬菌体(例如,到回归曲线〉3的标准偏差)被考虑为进一步评估的候选。表3M13克隆喧菌体ID核酸序列氨基酸序列(3字母)MC0425AAGGAGACGAGTCGTTTTACG(SEQIDNO:50)LysGluThrSerArgPheThr(SEQIDNO:51)MC0457ATTGTGAATAAGCATAAGGTT(SEQIDNO:52)lieValAsnLysHisLysVal(SEQIDN():53)MC0838CCGCCGGCGACGCAGGGGCAT(SEQIDNO:54)ProProAlaThrGinGlyHis(SEQIDNO:55)MC0908GAGCGGTCTCTGAGTCCGATT(SEQIDNO:56)GluArgSerLeuSerProlie(SEQIDNO:57)MC0919TTGAGTCAGAATCCGCATAAG(SEQIDNO:58)LeuSerGinAsnProHisLys(SEQIDNO:59)MC0996ATTCATAATAAGTGGGGGTAT(SEQIDNO:60)lieHisAsnLysCysGlyTyr(SEQIDNO:61)MC綱0TCTAATAATAGTATTCATCAG(SEQIDNO:62)SerAsnAsnSerlieHisGin(SEQIDNO:63)MC1011AGTATGACGCAGTCGGATAAG(SEQIDNO:64)SerMetThrGinSerAspLys(SEQIDNO:65)MC1326ATTGCTAAGGGTACTCCGCTG(SEQIDNO:66)lieAlaLysGlyThrProLeu(SEQIDNO:67)24<table>tableseeoriginaldocumentpage25</column></row><table>逸菌体ID核酸序列氨基酸序列(3字母)MC0425AAGGAGACGAGTCGTTTTACG(SEQIDNO:50)LysGluThrSerArgPheThr(SEQIDNO:51)MC3007AAGCATGAGACTAATCAGTGG(SEQIDNO:118)LysHisGluThrAsnGinTip(SEQIDNO:119)MC3010MC3063MC3088MC3146CAGTCTTATCATAAGCGTACT(SEQIDNO:120)GinSerTyrHisLysArgThr(SEQIDNO:121)MC3013AAGAATCAGACTAATAATATT(SEQIDNO:122)LysAsnGinThrAsnAsnlie(SEQIDNO:123)MC3014CAGATGCCGCATTCTAAGACG(SEQIDNO:124)GinMetProHisSerLysThr(SEQIDNO:125)MC3015MC3045MC3047MC3055ACGGCGCTTCATCAGCTTAGT(SEQIDNO:126)ThrAlaLeuHisGinLeuSer(SEQIDNO:127)MC3019CTTTCGCATATTTCTACGTCG(SEQIDNO:128)LeuSerHislieSerThrSer(SEQIDNO:129)MC3020GCTTCTGTTCCGAAGCGGTCT(SEQIDNO:130)AlaSerValProLysArgSer(SEQIDNO:131)MC3023CATACTCATCATGATAAGCAT(SEQIDNO:132)HisThiHisHisAspLysHis(SEQIDNO:133)MC3032AATTTGCATGCTGCTCGGCCT(SEQIDNO:134)AsnLeuHisAlaAlaArgPro(SEQIDNO:135)MC3033GATTCGTCGCCTTCTCCGCTT(SEQIDNO:136)AspSerSerProSerProLeu(SEQIDNO:137)MC3046ATTACGAATAAGTGGGGGTAT(SEQIDNO:138)lieThrAsnLysTrpGlyTyr(SEQIDNO:139)MC3048GTGGTTAATAAGCATAATACG(SEQIDNO:140)ValValAsnLysHisAsnThr(SEQIDNO:141)MC3050CTGAATACGCATTCGTCTCAG(SEQIDNO:142)LeuAsnThrHisSerSerGin(SEQIDNO:143)MC3052AGTGGTACGTCTCCTCATTTG(SEQIDNO:144)SerGlyThiSerProHisLeu(SEQIDNO:145)MC3058TTGGCGGATCAGCTGCCGAGT(SEQIDNO:146)LeuAlaAspGinL'euProSer(SEQIDNO:147)MC3059AAGGTGGGGCGTCTGCCTGAT(SEQIDNO:148)LysValGlyArgLeuProAsp(SEQIDNO:149)MC3096MC3127ACTAAGACTTGGTATGGGTCG(SEQIDNO:150)ThrLysThrTrpTyrGlySer(SEQIDNO:151)MC3100ATTACTTCTTGGTATGGGCGT(SEQIDNO:152)lieThrSerTrpTyrGlyArg(SEQIDNO:153)MC3130CCTTCTAGTAGTAAGGAGGAG(SEQIDNO:154)ProSerSerSerLysGluGlu(SEQIDNO:155)MC3135TCTCCGATTTCTCTTAAGGTG(SEQIDNO:156)SerProlieSerLeuLysVal(SEQIDNO:157)MC3143GGGCCTGCGTGGGAGGATCCG(SEQIDNO:158)GlyProAlaTrpGluAspPro(SEQIDNO:159)MC3148CCTCAGGCGTCTAATCCGCTT(SEQIDNO:160)ProGinAlaSerAsnProLeu(SEQIDNO:161)MC3156AGTGATAAGCAGCCTAAGGAT(SEQIDNO:162)SerAspLysGinProLysAsp(SEQIDNO:163)26某些所感兴趣的肽的氨基酸可替换为其他氨基酸或其他分子,只要所述肽保持结合所感兴趣的诊断自身抗体的能力。因此例如一个氨基酸可替换为另一个氨基酸。普遍地,替换氨基酸是有相似尺寸、形状和/或电荷的侧链的氨基酸。例如,Ala(A)可替换为Val(V)、Leu(L)或Ile(I);Arg(R)可替换为Lys(K)、Gln(Q)或Asn(N);N可替换为Q、His(H)、K或R;Asp(D)可替换为Glu(E);Cys(C)可替换为Ser(S);Q可替换为N;E可替换为D;Gly(G)可替换为Pro(P)或A;H可替换为N、Q、K或R;I可替换为L、V、Met(M)、A、Phe(F)或norL;L可替换为norL、I、V、M、A或F;K可替换为R、Q或N,M可替换为L、F或I;F可替换为L、V、I、A或Tyr(Y);P可替换为A;S可替换为Thr(T);T可替换为S;Trp(W)可替换为Y或F;Y可替换为W、F、T或S;而V可替换为I、L、M、F、A或norL。如此处所教导的,通过为在所感兴趣的免疫分析中的母体替换修改的肽,修改的肽可确定为在所感兴趣的本发明中是可用的,并且来自肺癌患者的血浆样本的结合水平可与母体肽的结合水平相比较。实质上相同或更好的结合是可接受的。应理解,可对核酸序列做各种改变,只要所表达的多肽继续结合肺癌自身抗体。那可以用此处所教导的任何结合分析,以及对未修改的母体克隆序列的表达的多肽所做出的比较,来确定。文库的高通量篩查的目的不是鉴别所有癌特异性的蛋白质,而是以最大程度的特异性和敏感性来鉴别预测标记的同期组群,所述预测标记作为小組可用来预测是否受治疗者包含在肺癌的同期组群内。像这样,目标并不是产生复杂的蛋白质组的图谱,或鉴别本质上的疾病蛋白质例如肺癌蛋白质,而是来鉴别对疾病有预测性的多个标记,并且当集合为小组时,实现对异质性群体中的异质性疾病的有力预测分析。任意一个标记可或不可在肺瘤形成中有直接作用,或作为肽,在目前,肽所起源的分子的真正作用是未知的。测量结合到单独捕获蛋白质的抗体在诊断芯片上汇编的捕获蛋白质可用来测量血液样本中的肺癌特异性抗体的相对数量。这可通过用各种平台、多肽的不同形成(如,噬菌体表达的、CDNA衍生的、肽文库或纯化的蛋白质),以及允许在样本之间和之中比较的不同的统计阵列来实现。比较需要标准化测量,通过外部校准或内部归一。因此,在例示的包括多个噬菌体表达的捕获蛋白质(例如,M13和T7噬菌体)和多个阴性的外部对照蛋白质(未结合患者血浆中的抗体的噬菌体以及不含有插入物的M13或T7噬菌体-称为"空"噬菌体)的玻璃载玻片阵列中,用免疫分析作为筛查工具,通过噬菌体衣壳的两色荧光标记和血浆样本抗体结合来归一化数据,并且应用了两种非限制统计途径抗体/噬菌体衣壳信号比用标准免疫化学技术和双色着色,把在筛查中鉴别的捕获蛋白质、多个非反应噬菌体、加上在单个诊断芯片上的"空"噬菌体与样本(一个或多个)一起培养。结合捕获蛋白质的抗体中间值(或平均值)信号除以针对噬菌体衣壳蛋白质的商业抗体的中间值(或平均值)信号来计算该点上总蛋白质的数量。因此,血清/噬菌体衣壳信号比(例如,Cy5/Cy3信号比)提供了针对独特的噬菌体表达蛋白质的人抗体的归一测量。然后可通过减去针对空噬菌体的背景反应性和除以噬菌体信号中间值(或平均值),[(噬菌体的Cy5/Cy3)-(空^t菌体的Cy5/Cy3)/(空噬菌体的Cy5/Cy3)],来进一步归一化测量。此方法是定量的、可重复的,并可弥补芯片之间的差异性,允许样本的比较。标准化残差(standardizedresidual)用标准免疫化学技术和双色着色,把在筛查中鉴别的捕获蛋白质、多个非反应噬菌体、加上在单个诊断芯片上的"空"噬菌体与样本(一个或多个)一起培养。到统计上确定的回归曲线的距离被测量,然后通过除以剩余标准偏差来标准化。此途径也提供了结合到每个独特的噬菌体表达蛋白质的抗体数量相对每点中的蛋白质数量的可靠测量,是定量的、可重复的,并可弥补芯片之间的差异性,允许才羊本的比举交。这种信号归一化可用于在诊断分析中检验的未知量来确定患者是否对标记呈阳性。分析可依靠抗体存在的定性确定,例如任何大于背景的标准化值可考虑为那种抗体存在的依据。可选地,通过确定标记的信号强度来定量分析,以作为抗体响应活力的反映。因此,对标记反应的实际数字归一值可应用于如此处描述的i拿断癌症的^式化确定中。鉴别预测标记所有候选的噬菌体表达蛋白质的归一化测量可独立分析得到患者组群和正常人组群间的统计学显著的差异,例如,通过JMP统计软件(SAS,Inc.,Cary,NC)的t-检验。带有对所检验样本独立区分的不同水平的标记的不同组合可通过若干方式进行统计学上的组合。统计处理是一种以多变量分析方式比较各种组合中的所有标记,以获得带有与疾病存在相关联最大可能性的标记小组的方法。在任何群体统计中,标记的选择取决于所用样本的数量和类型。这样,"最佳标记组合"可从群体到群体变化或例如基于异常阶段。当在大样本集(>1000)中检验,因为标记的群体发病率的验证,根据在更小样本尺寸(<100)中可能不明显或可示出减小偏差的变化性,标记的最佳组合可发生变化。加权对数回归是给标记结合更大和更小独立预测值的对数途径。区分所检验样本的标记最佳组合可通过组织和分析数据例如用ROC曲线来限定。等级预测所有候选的噬菌体表达蛋白质的标准化响应可独立分析得到患者组群和正常人组群间的统计学显著的差异,例如,通过t-检验。统计处理是一种以多变量分析方式比较各种组合中的所有标记,以获得带有与疾病存在相关联最大可能性的标记d、组的方法。此处例示的针对肺癌的小组(结合两个或更多个标记的测量)具有高结合的预测值并且展示了极好的区分(是癌或不是癌)。虽然本发明包括因为其在可得的癌样本和正常人样本间区分的能力而被选择的特殊肽小组,但应理解本发明是通过一些而不是所有鉴别的标记,以及不是所有有潜力可鉴别的标记或其组合而开发的。因此,小组可包括至少两个标记;至少三个标记;至少四个标记;至少五个标记;至少六个标记;至少七个标记;至少八个标记;至少九个标记;至少十个标记等等,标记的数量受统计分析支配以获得结果的最大可预测性。因此,例如此处所描述的实施例和d、组仅仅是实施例。29从统计的观点,包含额外的标记最终会导致将鉴别样本中所有受影响个体的检验。然而,因为成本的考虑、因为许多变量被考虑所需的统计处理、或许为了更多的对照因此减少了可一次4全验的试验数量的需要等等,商业实施方式可不要求或需要或想要许多标记。商业可得性与科学确定性有着不同的终点。然而,更多标记或不同的标记小组可加强敏感性和/或特异性的发现导致有小量标记的阳性分析之后的后续研究将会用更少或更多标记来检验患者样本,或不同的标记小组检验来排除假阳性的可能性的实施方式。这种应用带有重新配置的生物标记小组的所感兴趣的分析的后续研究,是吸引人的、可替代更昂贵并且有潜在侵入性的技术,如把患者暴露在高水平辐射的CT或活检。因此,例如有在5个标记的小组的三个或更少呈阳性的患者可用更大标记小組检验作为确定检验。为了加快随访,直到下次检验时拖延的或缩短的时期等等,本分析也可用于其它分析格式的确定,例如X-射线或CT扫描,特别地如果X-射线或CT扫描没有提供决定性的诊断,可导致重新检验的需要。因此,本分析可用作这种患者的随访。阳性检验可确定肺癌的可能性,并且阴性检验可指示良性癌或根本没有癌,并且非诊断X-射线或CT扫描显示了正常组织变化。因为在"商业就绪"分析中的准确的等级预测可基于来自取自广泛人口统计的许多样本的测量,在开发期间检验的所有回顾性(retrospective)样本检验可最终结合作为分级器(classifier),而分析能力例如预测值将连续提高。除了分析开发的动态方面,多重(多个标记)分析的本质允许预测标记在开发和实行的任何点被加入。在文中,通过限定"正常范围",用于诊断中的验证标记为产生加强预测准确性的高度稳定分级器集的次级目标服务。虽然对临床诊断最适合的截断值将必须通过在所给目标群体中的差异性确定,但是与所述正常范围的偏差将提供疾病的统计可能性(例如到回归曲线起〉2的标准偏差)。多个标记分析和应用30如在此更详细的讨论,本发明预期不同分析格式的应用。微阵列使得能同时检验多个样本。因此,若干对照,阳性和阴性,可包括在微阵列中。所以,可在分析运行的同时处理多个样本,例如来自已知受感染患者的样本和来自正常人的样本,还有将检验的样本。运行内部对照允许在分析内对信号强度进行归一化、校准和标准化。因此,这种有内部对照的微阵列、MEMS装置、NEMS装置或芯片使得所感兴趣的试验(患者)的诊断在装置上同时检验。MEMS和NEMS装置可用于微阵列分析,或可为"芯片上的实验室(labonachip)"的格式,例如结合微流体(microfluidics)以及其他可提供额外的分析格式和报告等等。为了加强预测能力和值,以及跨越普遍群体的适用性,并且减少成本,本分析格式可在从标准免疫分析到ELISA-型的格式的范围内,所述标准免疫分析例如试纸(dipstick)和侧向流动免疫分析,其普遍地可以以低制造成本同时检测一个或小数目目标,ELISA-型的格式经常配置成在可同时处理例如96、384或更多样本的多孔培养亚中来操作,并且对于临床实验室设置是常见的,而且可服从自动化、芯片和以高通量的方式同时检验更多样本的微阵列格式。分析也被配置来产生简单、定性的区分(是癌或不是癌)。但是在疾病管理中的多个不同应用是可能的,并且对于任意一个应用独特的标记可按此处所教导的制成。为了区分肺癌和其他类型癌、区分早期和晚期癌、区分特定亚型癌并且为了跟随治疗介入后的疾病进展,标记的不同集被获得。因此,可通过带有本分析的重复系列检验,根据需要估计和处理治疗计划,来监控治疗或緩解的进展。分析的定量版本,例如通过包括一系列捕获分子的稀释,可区分受治疗癌尺寸的减少。一旦特殊的抗原决定簇例如肽被鉴别为检测循环自身抗体,所述特殊的抗原决定簇可用来以本领域所知的格式用于诊断分析。由于相互作用是免疫反应,合适的诊断可通过若干已知的免疫分析格式的任意一种来呈现。因此,抗原决定簇可固定到固相,例如用已知的化学过程。此外,如本领域所知的,抗原决定蔟可轭合到经常大于所述抗原决定簇的其他分子,来形成合成的共轭分子或可通过重组方法形成复合分子。许多多肽自然地与塑料表面结合,例如聚乙烯表面,所述塑料表面可见于组织培养液装置如多孔盘。经常,这种塑料表面被处理以加强生物相容分子之间的结合。因此,多肽形成捕获单位,被怀疑携带特异性结合所述抗原决定簇的自身抗体的液体暴露于捕获单位,抗体变为对于捕获单位固定的并且不动,然后洗涤之后,结合的抗体通过合适的有可检测标记的报告分子,例如由如胶状金的胶状金属、例如荧光钠的荧光素等等标记的抗人抗体来检测。所述机制通过,例如ELISA、RIA、蛋白质印迹(Westernblot)等等来表现。用于检测自身抗体的免疫分析的特殊格式是设计选择。可选地,当特殊的噬菌体表达特异性结合于肺癌患者(其克隆被特定命名并以母液储存,并且当专利从本申请成熟时将可根据要求而获得)体内发现的自身抗体的抗原决定簇,分析的捕获单位可为单独的噬菌体,例如从细胞溶胞产物中获得,每个在固相上的一个捕获部位。此外,可应用反应惰性携带者,例如蛋白质,例如白蛋白和钉形虫血蓝蛋白(Keyholelimpethemocyanin),或合成的携带者,例如合成的聚合物,并且表达的抗原决定簇与其相附着,类似于携带者上的半抗原,或任何其他方式来展示为了免疫分析所感兴趣的抗原决定簇在固相上。此外,格式可用此种配置,其中固定到固相上的捕获单元是结合到免疫球蛋白的非抗原结合部分例如抗体的Fc部分的捕获单元。因此,合适的捕获单元可为蛋白质A、蛋白质G或和a-Fc抗体。如本领域所知的,患者血浆被暴露于捕获试剂,并且然后通过应用例如在直接或竟争格式有标签的标记,来^r测肺癌特异性抗体的存在。类似地,如上面所讨论的,捕获单元可以是结合到展示抗原决定簇的噬菌体上的抗原,来提供其他方式产生特异性的捕获试剂。如免疫分析技术所知的,捕获单元是抗体结合的决定簇。如此处所教导的,决定簇可以是任何分子,例如生物分子,或其部分,例如多肽、多核苷酸、脂质、多糖,等等,以及其组合,例如糖蛋白或脂蛋白,以上分子的存在与肺癌患者体内发现的抗体存在相关联。例如决定簇可以是自然存在的和纯化的。可选地,决定簇可通过重组方式制成或合成地制成,这样可最小化交叉反应。决定簇可无明显的生物功能或不必与特定状态相关,然而,这并不能降低其在所感兴趣的诊断分析中的应用。免疫分析的固相可为任何本领域所知的任何物质,并且有任何本领域所知的形式。因此,固相可为塑料,例如聚苯乙烯或聚丙烯,玻璃,基于硅的结构,例如硅芯片,膜,例如尼龙,纸等等。固相可展示在许多不同且已知的格式,例如以纸格式,珠子(bead),试纸和通常应用膜的侧向流动装置的一部分,微量滴定板,载玻片,芯片等等。固相可展现为坚硬平坦的表面,如在玻璃载玻片或芯片中发现的。一些自动探测器装置具有专用的一次性工具与用来读取可检测信号的工具相连,例如分光光度计、液体闪烁计数器、色度计、荧光计及其用来检测和读取基于光子的信号的相似工具。在本领域已知有其他用来检测结合的抗体的免疫试剂。例如,抗人Ig抗体因为其形成包括捕获决定簇、自身抗体和抗人Ig抗体的夹层结构而可以是合适的。抗人Ig抗体、检测单元可直接由报告分子,例如酶、胶状金属、放射性核素、染料等等来标记,或者自身结合于提供报告功能(reporterfunction)的第二分子。实质上,任何检测结合抗体的工具均可用,并且所述这种任何工具可包括有报告功能来产生操作者可鉴别信号的任何工具。分子标记来形成报告物在本领域中是已知的。在能够同时分析大量样本的装置方面,分析装置上可包括若干对照单元,既有阳性也有阴性,使得能控制分析性能、试剂性能、特异性和敏感性。经常地,如所述的,许多,如果不是所有制造所感兴趣的装置的步骤和许多分析的步骤可通过机械工具,例如机器人来实施,以最小化技术员误差。此外,来自这种装置的数据可通过扫描工具来数字化,数字信息被传送到数据储存工具,并且数据也被传送到数据处理工具,在数据处理工具中,如此处讨论的统计分析的种类,或如本领域已知的,可作用于数据来产生结果的测量,然后可与参考标准比较或者内部地比较,通过数据展示工具,例如屏幕或读出信息,来展现分析结果以提供诊断信息。对于分析更小数量样本或充足群体数据可得的装置,生成阳性结果和阴性结果的、带有合适误差测量的衍生计量装置是可提供的。如本领域已33知的,在这种情况下,单个的阳性对照和单个的阴性对照可为内部验证所需的全部。分析装置可被设置来产生更定性的结果,如是否包括在例如肺癌群中。其他高通量和/或自动免疫分析格式可如本领域所知或可得地应用。因此例如根据,例如在比色的(colorimetric)上的,基于珠子的分析(bead-basedassay)、荧光或发光信号是可用的,例如依赖充满染剂的微球体(dye-filledmicrosphere)的Luminex(Austin,TX)技术和BD(FranklinLakes,NJ)流式细胞珠子阵列系统(CytometricBeadArrayststem)。在任一'清况中,所感兴趣的抗原决定簇固定到珠子上。其他多重分析是Gannot等人,J.Mol.Diagnostics7,427-436,2005的分层阵列方法。此方法依靠多个膜的应用,每个膜携带结合对中的不同一个,例如目标分子,例如抗原或标记,为了寄存器(register)中的色i普转移,所述膜被配置在寄存器中来接受被怀疑携带结合对中的另一个的样本。样本允许通过毛细作用传送(wick)或通过若千排列的膜被运输来提供三维的矩阵。因此例如若干膜可堆在分离凝胶上,并且凝胶内含物可允许离开分离凝胶并穿过堆积膜。固定到任意一个膜和被运输穿过膜堆的分子之间的任何分子的关联,例如结合到抗体的抗原,可通过已知的报告物和检测材料和方法来显现,见例如,美国专利第6,602,661号和第6,969,615号;还有美国公布第20050255473号和第20040081987号。在另一个实施方式中,所感兴趣的组合物或装置可用来检测与肺癌相关联或有关的不同类型的分子。因此分析可检测与肺癌相关联或有关的循环的自身抗体和非抗体分子,例如肺癌抗原,见例如Weynants等人,Eur.Respir.J.,10:1703-1719,1997和Hirsch等人,Eur.Respir.J.,19:1151-1158,2002。因此,装置可包括捕获单元、对自身抗体的抗原决定簇和对肺癌分子的结合分子,例如特异性抗体、适体、配体等等。取样和检验的例示适用于检验样本,特别是在筛查分析中,普遍地是那些容易从患者获得的和可能以非侵入性或最小侵入性方式获得的。样本也是已知携带自身抗体的一种样本。血液样本是合适的这种样本,并且容易地使用于大多数免疫分析格式。在血液样本的情景中,有许多已知的血液收集管,许多可收集5或10ml流体。与大多数普遍要求的诊断血液检验类似,收集5ml血液,但是作为微阵列操作的本分析可能需要少于1ml血液。血液收集容器可包括抗凝剂,例如肝素、柠檬酸盐或乙二胺四乙酸。细胞单元普遍通过离心分离,例如在4。C以1000xg(RCF)离心10分钟(产生用于分析的40%血浆)并且一般储存于冰箱温度或4°C直到使用。血浆样本优选地在收集的3天之内分析或冷冻储存,例如在-20。C。多余样本在-20。C(在无霜水箱以避免样本的冻融)储存长达两星期,根据需要用于重复分析。超过两个星期的时期的储存应在-80。C。如本领域已知的标准处理和储存方法被实践以保持抗体的结构和功能。然后流体样本被施加到检验组合物,例如包括力。载有例如此处所讨论的五个标记小组之一的纯化多肽样本连同合适的阳性和阴性样本的部位的微阵列。样本可通过分级的数量例如系列稀释的方式提供以便能够定量。样本可随机地置于微阵列上以处理任何位置效应。培育之后,微阵列被洗涤,并且然后暴露于检测物,例如标有特殊标记的抗人抗体。为了能够归一化信号,另一个检测物被加到微阵列以提供例如每个部位样本的测量。那可以是指向在分离的多肽样本上另一部位的抗体,多肽可被修饰来包括额外的序列或对于特定反应惰性的分子,或在加在微阵列上之前多肽可被修饰来携带报告物。再次洗涤微阵列,并且然后如果需要,暴露于试剂使能检测报告物。因此,如果报告物包括有色粒子,例如金属溶胶,就不需要特殊的检测工具。如果应用荧光分子,就应用合适的入射光。如果应用酶,微阵列就暴露于合适的底物。然后为了结合到所述部位的反映物来估计微阵列。虽然那可以是肉眼估计,但有装置将检测和(如果需要)定量信号强度。然后通过观察阳性和阴性对照样本来解释所述数据以提供关于反应有效性的信息,并且,如果有效,试验样本被估计。然后为了癌的存在,解释所述信息。例如,如果患者对三个或更多个抗体呈阳性,患者被诊断为肺癌阳性。可选地,标记上的信息可应用于描述五个标记一起对结果(肺癌的存在)最大可能性关系的7>式,并且如果患者得分的线索大于相同小组得分值的50%,患者诊断为癌阳性。合适的得分可以是计算的AUC值。试剂盒和分析的使用虽然因为其对于疾病结果的潜在影响,早期诊断或对随后随访的早期警告是高度引人注意的,但是根据本发明的血液检验有多种用法和应用。本发明可用作补充放射成像筛查肺癌的工具。系列CT筛查一般地对肺癌敏感,但是趋向于相当昂贵和非特异性的(据报导64%的特异性)。因此,CT导致高数量的假阳性,接近十中有四。在放射成像期间常规鉴别未确定的肺结节经常导致昂贵的病情;险查和潜在有害的介入,包括主要外科手术。目前,年龄和吸烟史是作为针对肺癌的大筛查研究的选择标准的仅有的两个风险因素。根据本发明的应用血液检验来检测放射成像明显的癌(〉0.5cm)和/或隐匿性或恶化前的癌(小于传统放射成像检测限值)可指出最需要额外筛查的个体。因此,本筛查可用于首先的筛查检验,其中阳性结杲是进一步检查的指示,如在本领域中常规的和已知的,例如放射成像分析,例如CT、PET、X射线和相似的。此外,周期性的重新检验可鉴别新出现的NSCLC。受治疗者^r^r如何结合到医疗实践中的例子可以是高风险吸烟者(例如,每天吸烟一包等量的人并持续二十年)可接受作为每年身体检查一部分的受治疗者血液检验。没有任何进一步明显症状的阴性结果指示至少每年进一步检验。如果检验结果是阳性的,患者可接受进一步检验,例如重复本分析和/或CT扫描或X-射线来鉴别可能的肺瘤。如果CT扫描或X-射线没有明显的肿瘤,或许本分析可在这一年重复一次或两次,并且在接下来的几年多次,直到直径至少0.5mm的肺瘤可^皮^r测并经外科手术移除。如接下来的实施例所陈述的,应用例示的五标记小组所得的~90%描绘NSCLC的自身抗体的敏感性相当有利的相比于CT篩查单独所得的敏感性,并且通过比较可特别对小肿瘤执行良好,并且在隐匿性疾病的检查方36面代表了空前的进展。此外,本分析的大于80%的特异性大大地超过CT扫描的特异性,随着良性肺结节的百分数在风险群体中的增加,例如在Mayo临床筛查试验中升至参加者的大约70%,这变得越来越更重要。除了在筛查中的应用,本发明的分析和方法对于关于区分在CT筛查中鉴别的良性和恶性结节的紧密相关的临床问题也是有用的。单独的肺结节(SPN)被限定为完全被正常肺组织包围的直径小于3cm的单个球状损伤。虽然报道的在SPN中的恶性肿瘤的发病率在约10%到约70%之间的范围内,但是大多数采用SPN的现代定义的近期研究表明恶性肿瘤的发病率是约40%至约60%。多数良性损伤是肉芽肿的结果,而多数恶性损害是原发性肺癌。SPN的最初诊断评估是根据恶性肿瘤危险因素的估计例如年龄、吸烟史、之前恶性肺瘤历史和结节的胸部放射成像特性例如尺寸、钙化、边缘(border)(针骨状的(spiculated),或光滑的)和基于过去胸部X-射线的评估的成长形式。然后这些因素用于确定恶性肿瘤的可能性和指导进一步的患者管理。最初评估之后,许多结节将会被分级作为有恶性肺瘤的中间可能性(25%-75%)。在进行活检或外科手术之前,这一组的患者可从用本分析的额外的检验中获益。估计成长或代谢的成像的系列扫描(如PET扫描)仅仅是非侵入性的选择并且远不够理想。系列放射成像分析依靠成长的测量,需要损伤在两年的时间框架内显示不生长;虽然两年中每3个月的CT扫描是常规的纵向评估,但是理想的扫描之间的间隔还未被确定。PET扫描对肺癌有90-95%的特异性和80-85%的敏感性。这些预测值可根据良性肉芽肺疾病(如组织胞浆菌病)的地区发病率而变化。PET扫描目前成本在每个检验2000美元至4000美元。从自非外科手术过程例如支气管镜检查、经皮肺穿刺活检(TTNB)的产生的诊断范围在40%至95%之间。随后的关于设置非诊断过程的管理可为有疑问的。无论有没有诊断的病情检查,外科手术介入经常为最可使用的选择。选择将依靠于是否恶性肿瘤的检验前(pretest)风险是高或低、在特殊机构检验的可获得性、结节的特性(如尺寸和位置)、患者的外科手术风险,以及患者的偏好。其他胸腔外恶性肺瘤的之前的历史立即指示对肺转移性癌的37可能性,并且非侵入性检验的关联变得可忽略。在带有关于肺癌的未确定的临床可疑混淆的SPN临床方案中,循环肿瘤标记可帮助避免潜在有害的侵入性诊断病情检查并且相反地支持关于侵略性的外科手术介入的理论。本发明因此加强了选择系列成像结节而不是侵入性的诊断临床舒适。本发明也对时间间隔内的系列X-射线或CT扫描有影响,因此降低了临床卫生保健的成本。本发明作为有成本效益的方法将会补充或代替PET扫描来进一步增加诊断肺癌存在或不存在的可能性。本发明将会在治疗介入后估计疾病的复发方面是有用的。对结肠癌和前列腺癌的血液检验普遍地用于此项功能中,这里标记水平作为治疗成功或失败的指示物被跟踪,并且上升的标记水平指示对导致治疗介入的复发的进一步治疗评估的需要。本发明将提供关于肿瘤特性的重要信息;因为分析依靠多个标记,其中的任何一个可以是特殊癌的特征或其独特的参数,所以用不良预后确定肿瘤亚型可大大影响临床决定来推荐额外的有潜在毒性的治疗。用于常规益分析和患者选择。因此,本分析将是对于筛查、治疗的选择和对于在治疗期间来监护治疗过程、治疗成功、复发、治愈等等的继续使用的有价值的工具。本分析的试剂,特殊的标记小组可被处理来适应特殊的目的。例如,在篩查分析中,更大的标记小组或非常普通的标记的小组被用来为更多数量的个体来最大化预测能力。然而,在个体的情景中,正经历的治疗例如患者肿瘤的特殊的抗体指紋可获得,可需要或不需要用于筛查的所有标记,并且那个具体的标记子集可用来监护在患者中的肿瘤的存在,和随后的治疗介入。为了分配或相似目的,所感兴趣的分析的成分可通过若干不同的格式来配置。因此,一个或多个抗原决定簇可分为小份,并储存于一个或多个容器,例如玻璃小瓶、离心管和相似物中。如本领域已知的,抗原决定簇溶液可包括合适的缓沖剂和相似物,包括防腐剂、抗菌剂、稳定剂和相似物。抗原决定簇可在保存的形式,例如千燥的、冻干的等等。抗原决定簇可放置在合适的固相用于特殊的分析。因此,抗原决定簇可在培养液盘的孔中^:置和干燥,点在分层阵列或侧向流动免疫分析装置的膜中,点在载玻片或微阵列的其他支撑物上,等等。如本领域已知的,这些物品可被打包来确保最长存放期,例如用塑料薄膜包裹或不透明包裹,和装箱。分析包装箱可也包括阳性和阴性对照样本,每个都在容器中,当样本是液态时,所述容器包括带有滴管的容器或有能分配滴的盖子的容器,样本收集装置、其他液体转移装置、检测试剂、显影试剂,例如银染试剂和酶底物,碱性/酸性溶液、水等等。可包括合适的用法说明书。在其他格式中,例如用基于珠子的分析,多个抗原决定簇可固定在不同的珠子群中,然后可结合到单个试剂,易于暴露于患者样本。本发明现在将在以下非限制性的实施例中来例示,其数据已报导在Zhong等人,Am.J.Respir.Crit,CareMed.,172:1308-1314,2005和Zhong等人,J.ThoracicOncol.,1:513-519,2006,其内容通过参考结合于此,作为整体。实施例实施例1-应用T7克隆的NSCLC诊断分析在这个实施例中,进行了用于诊断晚期(n、III,和IV)NSCLC的标记的鉴别。应用NSCLC患者和正常人血浆生物淘篩两个T7谨菌体NSCLC文库来富集表达被NSCLC患者循环的抗体识别的多肽的免疫原性克隆的群。购买一个T7噬菌体NSCLCcDNA文库(Novagen,Madison,WI),并且应用NovagenOrientExpresscDNA合成和克隆系统,另一个文库^皮构建自腺癌细胞系NCI-1650。用来自5个NSCLC患者(2-4期;诊断经组织学确认)和来自正常健康捐献者的混合血浆生物淘篩文库,来富集被肿瘤相关抗体识别的噬菌体表达蛋白质群。简言之,噬菌体展示的文库通过和涂有来自混合正常血清(250^混合正常血清,稀释l:20,在4。C过夜(0/N))抗体的蛋白质G琼脂糖珠子一起培养被亲和度选择,来移除非肿瘤特异性的蛋白质。未结合的噬菌体通过离心与在正常血浆中结合到抗体的噬菌体分离。然后上清液对于涂有混合患者血浆U。C过夜)的蛋白质G琼脂糖珠子被生物淘筛,并且通过离心与未结合的噬菌体分离。结合的/反应的噬菌体用1%的十二烷基硫酸钠洗脱,并且然后通过离心收集。噬菌体在1mMIPTG和50昭/ml羧千青霉素(carbenicillin)存在时在大肠杆菌NLY5615(GibcoBRLGrandIsland,NY)中扩增直到溶解。收集扩增的包括噬菌体的溶胞产物,并且用于生物淘筛富集的三个额外的后续循环。如下所述,来自于第四次生物淘筛的包括噬菌体的溶胞产物一皮扩增,分离单独噬菌体克隆然后结合到蛋白质阵列中。阵列构建和高通量筛查为了分离单独噬菌体,来自于第四次生物淘筛的噬菌体溶胞产物在覆盖有6%琼脂糖的LB-琼脂盘中扩增和成长。挑摘集落的机器人(colony-pickingrobot)(GeneticQPix2,Hampshire,UK)被用来分离4000个单个的集落(2000/文库)。挑摘的噬菌体在96孔盘中扩增,然后用Affymetrix417Arrayer(Affymetrk,SantaClara,CA)来自每个孔的5nl清溶胞产物祐:机械地双份点在FAST载玻片(SchleicherandSchuell,Keene,NH)上。然后用未在生物淘筛中用过的5个单独NSCLC患者的血浆筛查4000个噬菌体来鉴别免疫原性的噬菌体。兔抗T7第一抗体(JacksonImmuno-Research,WestGrove,PA)用来检测T7衣壳蛋白质作为噬菌体数量的对照。预先吸收的血浆(血浆细菌溶胞产物,1:30)样本和抗T7抗体两者用IXTBS加0.1%Tween20(TBST)稀释1:3000,并且在室温和筛查载玻片培养l小时。载玻片被洗涤,然后用Cy5标记的抗人和Cy3标记的抗兔第二抗体(JacksonImmunoResearch;每个抗体在IXTBST中稀释1:4000)—起在室温探查1小时。再次洗涤载玻片,然后用Affymetrix428扫描机扫描。用GenePix5.0软件(AxonInstruments,UnionCity,CA)分析图像。具有到线性回归大于2个的标准偏差的Cy5/Cy3信号比的噬菌体被选作候选以用在"诊断芯片"上。诊断芯片设计和抗体测量在上面高通量筛查中鉴别的212个免疫反应性的噬菌体,加上120个"空"T7噬菌体被结合、重新扩增和双份点在FAST载玻片上,作为单个诊断芯片。通过应用上面描述的篩查方案,复制芯片用来分析40个晚期NSCLC样本。Cy5信号的中值相对于Cy3信号的中值归一(Cy5/Cy3信号比)作为人抗体针对独特的噬菌体表达蛋白质的测量值。为了弥补芯片之间的差异性,通过减去针对空T7噬菌体蛋白质的血浆背景反应性和除以T7步归一化测量。来自40个患者(II-IV期)和41个正常人的归一化信号的studentt-检验提供了指示每个候选标记相对预测值的统计截断值(p<0.01)。212个候选中,17个符合截断值标准(p=0.00003至p=0.01)。通过PCR和序列分析估计组内的冗余度,显示了几个二倍的和三倍的克隆。当多余克隆被排除,一套7噬菌体表达的蛋白质被鉴别。统计分析执行对数回归分析来预测样本是来自NSCLC患者的可能性。总共81个患者和正常人样本被分为2组。患者被诊断为NSCLCII-IV期。第一组由随机选择的21个正:20个患者血浆样本组成,用作训练集来鉴别通过单独标记或标记的组合在患者样本和正常人样本间区分的标记。第二组由20个患者和20个正常人样本组成,用来验证用训练集鉴别的标记的预测率。产生接受者操作特性(ROC)曲线来比较用不同标记的预测准确性和特异性,并且曲线下面积(AUC)被确定。用留一交叉验证法(leave-one-outcross-validation)进一步检查分级器。吸烟史和疾病期也被分才斤和比專交。然后所述两组被对调,并且40的组成为训练集来鉴别NSCLC指示性的标记。然后因此被鉴别的标记作为提供最大预测能力用于在另一41个样本的组诊断NSCLC。41表4ROC曲线下面积和预测准确性训练集*验证集t噬菌体克隆AUCS特异性(%)敏感性(%)特异性(%)4丈感性(%)1864.857758165851896.857708670751919.824758170901761.798708170851747.86470867080組合的.98392959095*训练集由21个正常人和20个NSCLC患者样本组成。4全验集由20个正常人和20个NSCLC患者样本组成。§AUC:ROC曲线下面积。表5留一交叉验证法*噬菌体克隆特异性,%敏感性,%i贪断准确性%18647082.976.518967082.975.319197082.976.517616082.971.6174772.582.977.8组合的87.590.288.9*留一交叉验证法从包含总数81个样本的检验集中移除一个样本,生成分级器用于通过应用其余样本预测被移除样本的状态(正常人或患者)。对所有样本重复这个过程。卞诊断准确性=(真阳性数量+真阴性数量)/样本总数。噬菌体表达蛋白质的序列分析根据通过t-检验的假定预测值和p值O.Ol所选择的17个噬菌体被测序列来鉴别冗余度,显示了7个独特的序列。虽然噬菌体表达蛋白质的鉴定对于所感兴趣的诊断分析是不重要的,但是序列与那些在前面用不同(独立)的筛查方法的研究中获得的相比较,并且也与GenBank数据库相比较以获得可能的鉴定。从7个克隆获得的核酸序列展示了与GAGE7、NOPP140、EEFIA、PMS2L15、SEC15LC、桩蛋白和BAC克隆RP11-499F19的同源性。7种蛋白质中,EEF1A(真核翻译延长因子1)是蛋白质合成机制中的核组分,GAGE7是癌睾丸抗原,它们在一些肺癌中过表达。桩蛋白是调节细胞粘连和迁移的粘连斑蛋白质。桩蛋白的异常表达和异常的活性与在一些包括肺癌的恶性肿瘤中侵入性的转移表型相关联。PMS2L15是DNA错配修复相关的蛋白质,但是还没有突变在癌中被鉴别。类似地,SEC15L2是细胞内运输蛋白质,NOPP140是参与转录活动控制的核仁蛋白,它们不具有已知的恶性关联。然而这三种蛋白的生理功能显示每一个都在恶性表型中起作用。统计建4莫和分析预测准确性为了用独特的7噬菌体表达蛋白质开发分级器以获得更高预测率,81个样本被随机分为两组,一组为了训练目的,而另一组为了验证目的。通过单独噬菌体表达蛋白质以及多个噬菌体表达的标记组合,使用对数回归来计算预测准确性的^t感性和特异性。结果显示5个噬菌体标记有相当的能力来区分训练集中的患者样本和正常人对照。每个ROCAUC单独地在0.79至0.86的范围内。5个标记的组合获得了有前途的预测率(AUC=0.98),具有95%敏感性和85%特异性(表4)。用所述统计才莫型来检验由20个对照正常人和20个NSCLC样本组成的验证组,所迷分析提供了90%的敏感性和95%的特异性(表4)。为了进一步检查分级器与诊断敏感性和特异性的关联,用留一交叉验证法在所有81个芯片上执行等级预测。对于81个样本,敏感性和特异性分别是90%和87%,并且总诊断准确性是89%(表5)。也应用所有81个样本、相应的克隆ID、基因名和p值如下1864、GAGE7、p=9.1xl(T9;1896、BAC克隆RP11-499F19,p=3,5xl(T8;1919,SEC15L2、p=l,2xl(T6;1761、PMS2L15、p=5.2xl(T7;和1747、EEFIA、p=5.9xl(T7。所有5个标记通过0.001/262=3.8xl(T6的Bonferroni校正,使他们中的一个或多个是假阳性的几率小于0.001。因此,总体上,五个标记的小组用来从40个NSCLC患者和41个正常人中分离样本,并且当样本包括所有五个标记时,成功鉴別率为89%。实施例2-用T7克隆检测早期肺癌在这个实施例中,调查了根据本发明鉴别能从风险匹配对照样本中区分肺癌I期和隐匿性疾病的标记的分析和方法的能力。人类受治疗者经告知许可之后,血浆样本在肯塔基大学和退伍军人管理中心医疗中心从组织学确认NSCLC的个体中获得。从参加Mayo临床肺筛查试验(MayoClinicLungScreeningTrial)的1520个受治疗者中随机选择无癌对照。简言之,有最少20年的吸烟史、年龄在50-75之间,并且在进入研究前的五年之内无其他恶性肿瘤的个体有资格进行CT筛查试验。除了来自于Mayo肺筛查试验的无癌样本,6个NSCLCI期样本和40个诊断前样本也为分析可得。样本捐献的一至五年,在进入研究时从在CT扫描诊断有NSCLC发病癌的受治疗者中抽取诊断前样本。噬菌体文库噬菌体文库、淘筛和篩查如上面所描述。诊断芯片设计和抗体测量在上面的高通量筛查中鉴别的212个免疫反应噬菌体,加上120个"空"T7噬菌体,被结合、重新扩增和双份点在FAST载玻片上,作为单个44诊断芯片。用上面所描述的用于筛查的方案,用复制芯片来分析23个NSCLCI期和23个风险匹配血浆才羊本。统计分析如前面实施例中所描述的,应用JMP统计软件(SAS,Inc.,Cary,NC)通过t-检验,212个噬菌体表达蛋白质中的每个的归一化的Cy5/Cy3率被独立分析,以获得23个患者和23个对照样本之间的统计显著的差异。用所有的46个样本来构建能通过单独的标记,或标记组和来区分患者和正常人样本的分级器。产生ROC曲线来比较预测敏感性、特异性,并且确定AUC。然后用留一交叉验证法来为所有46个样本检查分级器。然后用分级器集来预测在102个病例的独立集和来自Mayo临床肺筛查试验的风险匹配对照中疾病的几率。吸烟和其他非恶性肺疾病的相对影响也被估计。通过分析所有46个样本来估计预测能力所得到的每个单独吸烟者的ROCAUC在.74至.95的范围内;并且5个标记的组合显示了区分早期患者样本和高风险匹配对照(AUC=0.99)的显著能力。用留一交叉验证法计算的敏感性和特异性分别是91.3%和91.3%(表7)。然后分析来自包括早于诊断之前0-5年抽取的46个样本(6个发病癌和40个前期癌样本)和来自筛查的群体中的56个风险匹配样本的Mayo临床CT筛查试验的样本同期组群,作为独立的数据集。结果显示了49/56无癌样本、6/6在篩查CT中放射成像时抽取的癌样本、9/12早于诊断前一年抽取的样本、8/11早于诊断前两年抽取的样本、10/11早3年抽取的样本、4/4早于诊断前4年抽取的样本和1/2早于诊断前五年抽取的样本,对应于87.5%的特异性和82.6%的敏感性。8个前期癌样本中的3个被有支气管肺泡细胞组织学的分析错误分级。在检验集中,通过慢性阻塞性肺病(COPD)的临床诊断,6/6个无癌对照被正确鉴别,1个有肉样瘤病个体和1个有乳腺癌的周期诊断的个体。在后一种独立检验集中,2个有局部前列腺癌的个体也被正确地分级为正45常人。1个有之前乳腺癌诊断(>5年前)的个体被分级为无癌,但是另1个被分级为癌。79个无癌受治疗者中的34个有在筛查CT扫描中检测到析每丈感性和诊断时间也无关联。噬菌体表达蛋白质的序列分析与GenBank数据库比较5个预测性的噬菌体表达蛋白质的核酸序列。从用于最终预测模型的5个克隆中获得的核酸序列展示了和桩蛋白、SEC15L2、BAC克隆RP11-499F19、XRCC5和MALAT1的高度同源性。通过用来自在前一实施例中描述的有晚期肺癌患者的血浆,前三个被鉴别为免疫反应性的。XRCC5是在一些肺癌中过表达的DNA修复基因。斑粘连蛋白质桩蛋白的异常的活性和异常的表达与肺癌和其他恶性肿瘤中的侵入性转移表型相关联。MALAT1是在肺癌中异常表达的调控RNA。弥补针对肺癌的放射成像筛查的本分析的潜力可在后续验证中被认可,在后续验证中结合了正确预测来自Mayo临床肺筛查试验的49/56个无癌样本,还有来自早于放射成像检测1-5年抽取的血液的6/6发病癌和32/40发生癌的这五个抗体标记的测量,对应87.5%特异性和82.6%敏感型。Mayo临床肺筛查试验的最初报告描述了CT单独诊断的35个NSCLC、痰细胞检查单独检测的一个NSCLC和在每年扫描之间临床检测的一个NSCLCIV期,对应于单独CT扫描94.5%的敏感性。进一步地,第一年发病扫描之后的回顾性调查显示了小肺结节在26。/。的普遍扫描中被遗漏,与在其他CT筛查实验中报道的显著假阴性率一致。在231个参加者(375个参加者的62%)中回顾鉴别的结节直径小于4mm、137(37%)中4-7mm、6(2%)中8-20mm。这样,描述NSCLC的自身抗体的82.6%的敏感性相当有利地相比于仅CT筛查,通过比较可良好的操作用于小肿瘤,并且代表了在隐匿性疾病的检测方面空前的进展。此外,本分析87.5%的特异性大大超过了CT扫描的特异性,这当良性肺结节百分数在风险群体中增加,升至在Mayo临床筛查试验中参加者的69%的水平时,变得更加重要。表6在训练集中的对数回归/留一验证<table>tableseeoriginaldocumentpage47</column></row><table>*训练集由23个高风险正常人和23个NSCLC—期患者样本组成。T留一验证基于45个病例和对照(controlls)的单个样本的预测。§AUC:R0C曲线下面积。5个标记准确地-〖t断了隐匿性和I期肺癌。在受治疗者中,两个或更多个标记的存在在用标准方法诊断之前可以并且预测了癌。结合到NSCLC施例中,在那个样本集中的对照的大约一半有良性肉芽肺疾病的放射成像的证据,并没有显示出混淆我们区分癌和无癌的能力。实施例3-用同样方法鉴别肺癌特异性的随机肽标记和开发NSCLC诊断分赶肺癌特异性标记也通过使用噬菌体展示的随机肽来获得。这种文库商业上可得,或可如本领域已知的来构建。M13被选作载体。标记的鉴别应用商业上可得的包括融合到次级外壳蛋白的2xl(^个随机肽的M13噬菌体展示肽文库(Ph.DTM-C7C,NEB)。每个噬菌体克隆表达在噬菌体表面环状结构中的独特的7氨基酸肽。环状结构由细菌周质中形成的单侧翼二硫键束绰。文库经受如上文所描述的用来自肺癌患者和对照的血浆的两轮"生物,力々士'AaR7.A士法Siir"t产"t冶HI丰迫^tp^齒乂AAA厶^A^1i)l:^ffi急梦AA机器人(Q-PixII,GenetixLtd.,NewMilton,Hampshire,UK)被用来挑摘单独集落。被挑摘的噬菌体在96孔盘中被重新扩增,并且来自每个孔的上清液用Affymetrix417Arrayer(Affymetrix,SantaClara,CA)被机械地双份点到FAST载玻片上(SchleicherandSchuell,Keene,NH)。然后排列的噬菌体与来自NSCLC患者和来自无NSCLC个体的血浆样本一起培养,来鉴别与肺癌特异性自身抗体反应的克隆。用结合到人IgG的红荧光标记的第二抗体显示结合到噬菌体的抗体。为了考虑可在每一点存在的可变化的蛋白质数量,使用直接结合到噬菌体衣壳的带有绿荧光标记的抗体。载玻片的双色扫描提供了指示结合到每个蛋白质的抗体数量的红色信号和指示在每一点的蛋白质数量的绿色信号。通过产生在载玻片上的每一点的红色信号(抗体数量)相对绿色信号(蛋白质数量)的散布图的程序来汇编和展示数据。应用指示载玻片上所有蛋白质的平均信号和标准偏差的计算机生成的回归分析,鉴别了被NSCLC患者血浆中抗体结合的蛋白质。结合了来自NSCLC血浆样本的相当数量的抗体(到回归曲线>2的标准偏差)的噬菌体被考虑作为进一步评估的候选。大约500个候选噬菌体被选择来评估区分NSCLC样本和对照的潜力。这些免疫反应性的噬菌体与空噬菌体(没有随机寡核苷酸插入物的噬菌体)在精制的原型微阵列上一起被汇编、成长和排列。用单独的NSCLC和无癌血浆样本分析微阵列。小组选择在高通量(HT)筛查中被鉴別为与5个NSCLC样本中的至少一个有高度反应性(用计算机生成的回归曲线的至少两个标准偏差)的483个免疫反应性的噬菌体,加上63个没有插入肽的噬菌体,在FAST载玻片上双份地重新扩增和排列。标准化残差测量值(到回归曲线的距离除以剩余标准偏差)提供了结合到每个独特的噬菌体表达蛋白质的抗体的数量相对在每个点中蛋白质数量的可靠测量。所述方法是定量的、可重复的和对芯片之间差异性的弥补,允许样本之间和之中的比较。DNA序列分析用来确认多余噬菌体没有被选择。在所选的候选噬菌体中观察到低冗余水平(<4%)。应用JMP统计软件(SAS,Inc.,Cary,NC)经t-检验独立分析483个候选标记中的每一个的标准化残差,得到来自可得样本集一半的63个病例和对照之间的统计学显著的差异。483个候选标记中的224个显示了32个病例和31个对照之间的统计学显著的差异(p<0.05),标记中的155个有p<0.01的显著水平;标记中的85个有p0.001的显著水平;以及标记中的32个有pO.OOOl的显著水平。有高独立区分水平的32个独特标记被进一步评估以获得由ROC确定的独立和结合的预测值。从样本集一半(A组62个病例和对照)中推导的单独标记的ROCAUC在0.729至0.954(平均0.811)的范围内。用所有的125个病例和对照(结合样本集A和B)测量的单独标记的AUC在0.727至0.908(平均0.766)的范围内。通过在此描述的篩查方案,复制芯片用于分析NSCLC血浆样本(II-IV期)、有早期癌的患者(根据机构审查委员(InstitutionalReviewBoard)(IRB)批准的方案在肯塔基大学收集的样本)、从Mayo临床预期筛查试验(Bach等人,JAMA297,953,2007)中获得的代表早于放射成像检测肺癌1-5年抽取的血液样本的病例和正常人对照(>50岁高风险吸烟者,在中部肯塔基血液中心(CentralKentuckyBloodCenter)的血液捐献者)。分析验证用加权的对数回归评估有最高独立区分的标记的各种组合,来确定预测准确性。例如,带有范围在p0.007至p〈2xl(^之间p值的12个标记的组合产生了.973的ROC曲线下面积,并且在留一统计验证法中进一步评估以得到预测准确性。对单独标记的ROC分析产生范围在.591至.893之间的AUC值。49实施例4-用于检测早期癌的4随机肽小组从在实施例3中展示的实验中获得的4个克隆(MC1484、MC2628、MC2853和MC3050)的小组与在肯塔基大学(UK)进行的研究中诊断为早期癌(一般地I期)的患者样本和无癌患者样本一起检验。获得了95%的特异性(n=39),并且用留一(LOO)交叉验证法特异性为90%。敏感性(n=17)为94%,并且用LOO交叉验证法敏感性为82%。实施例5-用于在放射成像可检测癌之前检测癌的4随机肽小组当在来自实施例2中所描述的Mayo临床研究的样本(这里样本从有肺癌风险的没有放射成像可检测的癌但是最终确实发展成肺癌的个体得到)上检验从M13文库中获得的随机标记的同一小组时,26个样本中的18个被鉴别为癌阳性。样本是来自于所检验样本获得一至四年后发现有放射成像可检测的癌的个体。实施例6-用于检测晚期肺癌的10随机肽小组在有晚期癌的患者样本和合适数量的"正常人"样本(来自无癌的个体MC919、MC1011、MC1521、MC1524、MC1760、MC2645、MC2900、MC3000和MC3127)的不同小组。获得94%的敏感性(n=36)(LOO为86%)和94%的特异性(n=38)(LOO为84%)。因此,38个正常人样本中的36个被鉴别为癌阴性,并且来自肺癌患者的36个样本中的34个被鉴别为癌阳性。实施例7-用于检测肺癌的14随机肽小组当实施例4至6的噬菌体克隆小组被结合来检测与正常人比较的有早期和晚期癌患者的癌时,获得94。/。的敏感性(n二52)(LOO为86%)和92%50的特异性(n=38)(LOO为71%)。因此,这个实施例说明了标记的某些组合可用来诊断肺癌的任何阶段。实施例8-用于检测肺癌的5随才凡肽小组应用"训练和检验"验证策略,指定用于统计才莫型训练的样本集的一半被用作分级器来获得在类似地包括32个NSCLC病例(20个晚期11个早期),以及31个风险匹配对照的另一半中的等级预测。有最高AUC的单独标记^皮相继地加到对数回归才莫型中。一种5标记组合(908、3148、1011、3052和]000)提供了在癌所有实施例9-用于检测肺癌的6随机肽小组重叠的数据集,风险匹配对照样本被分为两组用于训练和验证,或可选地,在减少样本尺寸偏差的留一分析中评估;通过病例和对照之间的区分水平统计地4巴候选抗体标记分等级。表7<table>tableseeoriginaldocumentpage51</column></row><table>a平均年龄iSD组织学A:腺癌;S:鳞状的;N:不是其他特定的NSCLCROC-AUC分析显示各种标记组合的预测潜力。通过把可得的样本分为训练和检验组而根据独立的样本同期组群来执行等级预测,或在留一验证策略中对124个病例和对照中的每一个来相继地确定等级预测。通过t-检验独立分析483个候选标记中的每一个以获得来自可得的样本集一半的62个病例和对照之间的统计学显著的差异。483个候选标记中的224个显示了32个病例和30个对照之间的统计学显著的差异(p<0.05),标记中的155个显示了p<0.01水平的统计学显著性;标记中的85个显示了p<0,001水平的统计学显著性;以及标记中的33个显示了p<0.0001水平的统计学显著性。序列分析显示了在捕获蛋白质中非常有限的冗余率。在"训练和检验,,验证中,六标记组合获得了在32个病例和31个对照间极好的区分(AUC1.0),见表8。有最高独立区分水平的33个独特标记被进一步评估以获得由ROC确定的独立和结合的预测值。从样本集的一半(A组62个病例和对照)中推导的单独标记的ROCAUC在0.729至0.954(平均0.811)的范围内。用所有的124个病例和对照(结合样本集A和B)测量的单独标记的AUC在0.727至0.908(平均0.766)的范围内。分析验证应用"训练和检验"验证策略,指定用于统计模型训练的样本集的一半早期),以及31个风险匹配对照的另一半中的等级预测。有最高AUC的单独标记被相继地加到对数回归模型中。在"训练和检验,,验证中,6标记小组获得了在32个病例和31个对照间极好的区分(AUC1.0)(表8)。在所有的124个样本中,7标记小组产生了0.949的AUC(见表9),11标记产生了0.947的AUC,以及25标记集获得了极好的区分。几个替代标记组合也提供了高区分水平。若干标记组合给出了类似的AUC。用训练和检验验证的等级预测产生90%的敏感性和73%的特异性。为了减少样本尺寸偏差,应用了结合来自所有124个可得的病例和对照样本测量结果的留一交叉验证法。检验了几个标记组合。在样本同期组群A中给出极好区分的前7个标记,在完整样本集中产生了0.944的AUC;52留一交叉验证法产生了90.4%的敏感性和82.7%的特异性(预测准确性86%)。相加到11个标记增加AUC至0.947,产生了87.3%的*文感性和86.6%的特异性,但没有显著地改变86%的预测准确性。应用从所有124个样本的ROC推导的系列分等标记,应用带有计算敏感性和特异性分别为87.3%和84.5%的九标记组合获得AUC=0.944。替代标记组合提供了非常相似的预测水平。如所预期的,需要更多数量的带有更小独立预测值(通过AUC)的标记来增加AUC。表8:顺序标记组合,训练和检验验证<table>tableseeoriginaldocumentpage53</column></row><table>32个癌病例包括11个I期癌样本和21个II-IV期癌样本。在统计回归才莫型中相继加入标记。在包括31个癌病例(11个I期和20个II-IV期)和31个无癌对照的独立样本集中计算等级预测以获得五标记组合。MC838是SEQIDNO:55;MC卯8是SEQIDNO:57;MC1000是SEQIDNO:63;MC1011是SEQIDNO:65;MC3052是SEQIDNO:145;以及MC3148是SEQIDNO:〗61。为了减少样本尺寸偏差,应用了结合来自所有125个可得的病例和对照样本测量结果的留一交叉验证模型。检验了几个标记组合(例如,见表9)。表9:标i己的顺序添加和留一验证法<table>tableseeoriginaldocumentpage54</column></row><table>才企验了125个病例和对照。有最高AUC值的标记被相继加入。通过留一策略计算敏感性和特异性。实施例10-早于放射成像检测的用于检测肺癌的13随机肽小组其他通过t-检验选择的候选肽的组合(表10)被评估以获得用来早于放射成像检测一至四年预测癌的发作的能力。训练和检验验证被用来为31个预先诊断筛查病例和在进入Mayo临床CT筛查试验(Swensen等人,Radiology.2003;226:756陽61;和Swensen等人Radiology.2005;235:259-65)时抽取的30个无癌病例来确定13个独特标记组合的敏感性和特异性。表10:用于早期癌预测的在M13噬菌体中表达的13种肽<table>tableseeoriginaldocumentpage54</column></row><table>在自然增长(accrual)、血液捐献和普遍CT扫描的一至四年后,通过发病CT筛查诊断NSCLC。用作训练集的可得的样本包括42个NSCLC晚期、22个NSCLC早期和30个无癌对照。如此处所描述的,肽在M13噬菌体中被表达,并且在载玻片的微阵列上被分析。在训练集中,标记共同地给出0.987的ROC曲线的AUC。用训练集作为分级器,在检验集中的癌预测显示了80.6%的敏感性和70%的特异性。数据对应于早于放射成像检测一年10个癌病例中有8个的准确预测;早于检测两年7/9的准确预测;早于检测三年9/10的准确预测;早于检测四年2/3的准确预测;以及21/30的无癌对照。表ll:肺癌预测<table>tableseeoriginaldocumentpage55</column></row><table>实施例11-用于检测肺癌的21随机肽小组通过t-#r-睑选择的21个独特肽的候选标记池(表12)在包括42个晚期、22个早期、38个预先诊断筛查病例和59个无癌病例的NSCLC病例上被检验。通过无癌病例vs.单一阶段、所有阶段、预先诊断筛查病例或不同癌组的组合的数据计算p值。t-检验中的p值在0.04至O.OOOOOOl的范围内。对于所有比较,p值〈0.05的标记被选择用来包含在小组中。如在实施例1和2中所描述的,通过应用T7噬菌体展示文库的肽,表12的2、3和4列中的数据显示在这个随机M13噬菌体表达的肽的小组中的克隆可以分别地在无癌病例和早期肺癌病例、晚期肺癌和在CT扫描中不明显的隐匿性疾病病例之间区分。表12:21个M13噬菌体表达的肽的小组M13噬菌体克隆癌早期(n=18)癌II-IV期(n=46)预先诊断(n=38)所有癌I-IV期(匿i=64)早期&预先诊断(n=56)所有癌&预先诊断(n=102)MCD908A,A,0.000000MC10110細069o細ooo0.0183650.0000000.000272o細oooMC16940.019258o細ooo0.0125630.0000000.0029160.000000MC29780扁4690.0000040.0338500.0000020.006S40O細OIOMC29840.0157000.0000010.015243O細细0.0026060細()(t3MC29930.0000430細3590.0012930.0000140.0000350.000004MC29960.000001O扁OOO0.0001660.0000000.0000030.000000MC29970細3560.0000280.001615o細證0細05SO細OOlMC3000,01120.0006650.0157360細0220細3710.000067MC30070細2440.0000000細5450.0000000.0002530.000000MC30100.0012910細12S0細54S0細0130細(B10.000002MC30130細9790.0000530扁0960.0000020.000002o細oooMC30140細0360細33S0細(B90細0510.000006O細OOlMC30150駕6430細0030.0000000細002O細OOl0.0,00MC30190.0000030.0034840細1S50細048O細謝o細oosMC30500.0021250.0000700.0000220.0000100.000002o細oooMC30520.0014300.0000020.0126230.0000000扁3060.000002MC30580.0180980.0000000.0041870.0000010.0011810細003MC30590駕5580細1320.0069650.0000230.0006200.000033MC31000.0024560細2210.0110220.0000130細3730.000013MC31480細5150.0000000.0297940.0000000扁327o細ooo此处所引用的所有参考通过参考结合于此,作为整体。明显地,可对此处教导做出各种修改而并不偏离本发明的精神和范围。5权利要求1.一种选择患者来接受放射成像检验肺癌的方法,其包括(a)提供来自所述患者的流体样本;(b)应用随机多肽,在所述样本中确定与肺癌相关联的标记的存在;以及(c)选择在所述样本中具有所述标记的患者进行放射成像检验。2.根据权利要求1所述的方法,其中所述标记是自身抗体。3.根据权利要求1所迷的方法,其中所述患者是无症状的。4.根据权利要求1所述的方法,其中所述患者是没有放射成像可检验的肺癌的高风险患者。5.根据权利要求1所述的方法,其中所述标记在放射成像可检验的肺癌存在于所述患者体内之前达五年就一皮表达。6.—种包括肺癌标记的组合物,其中所述标记是在放射成像可检验的肺癌存在于患者体内之前达五年就存在于所迷患者体内的流体样本中的分子的结合配偶体,并且是随机多肽。7.根据权利要求6所述的组合物,其中所述样本中的所述分子是自身抗体。8.根据权利要求6所述的组合物,其包括珠子。9.根据权利要求6所述的组合物,其包括膜。10.根据权利要求6所述的组合物,其包括平面。11.一种分析装置,其包括根据权利要求6所述的组合物。12.根据权利要求11所述的分析装置,其包括微阵列。13.—种诊断装置,其包括至少两个肺癌标记和固湘,其中所述标记是随机多肽。14.根据权利要求13所述的装置,其中所述标记是自身抗体的抗原决定簇。15.根据权利要求13所述的装置,其中所述固相包括珠子。16.根据权利要求13所述的装置,其中所述固相包括膜。17.根据权利要求13所述的装置,其包括阵列。全文摘要一种用于确定患者体内肺癌存在的诊断分析,该诊断分析部分地取决于用随机多肽确定与肺癌相关联的抗体的存在。该分析能在放射成像可探测的癌症组织显现之前预测肺癌。文档编号G01N33/53GK101490550SQ200780025909公开日2009年7月22日申请日期2007年7月6日优先权日2006年7月8日发明者爱德华·A·希尔施科维奇,纳达·H·卡塔,丽钟,阿诺德·J·斯托姆博格申请人:肯塔基大学研究基金会