论文部分内容阅读
目的:男性性工作者(俗称Money Boys,MBs)是HIV感染的高危人群,同时也是MSM群体的高危亚族人群。由于MSM群体合法性的缺失,同时会受到公众的歧视,目前对这一边缘化的亚人群进行的研究极其有限。现有的研究主要关注该人群的HIV的流行、性传播感染相关危险因素和避孕套的持续使用情况。随着互联网的快速发展和智能终端的日益普及,在线社交网络为更快捷的渠道。但目前关于MBs采用基于网络的途径来寻找性伴的现状、MBs的流动性模式的研究十分有限。本次研究的目包括:(1)了解MBs基于网络的方式寻找性伴侣人群的特征和流动性模式;(2)采用潜变量类别分析识别高危MBs;(3)采用数据分类技术预测该人群的HIV感染状况,采用人工合成数据(SMOTE)方法解决类不平衡问题。方法:本次研究于2014年12月到2015年6月在天津进行,采用方便抽样的方法抽取目标人群,最终有330名MBs被纳入到本次研究之中,纳入研究的目标人群采用事先设计好的问卷进行调查,通过采取一定的血样进行化验,基本的统计描述采用SAS9.4统计分析应用软件进行处理,运用SAS的PROC LCA过程进行潜变量类别分析,同时使用基于R语言的数据分类算法研究数据分类技术在该人群中的应用。采用分层bootstrap法对于原始数据集进行有放回地抽样,用抽到的数据组成训练集,没有抽到的数据集组成测试集,每种算法均采用训练集采用三折交叉验证的方式寻找最优参数,使用测试集来比较logistic回归,神经网络,支持向量机,随机森林和CART等分类器的分类结果。采用SMOTE技术生成研究所需要的数据集,基于新合成的数据集来比较各分类算法的分类性能。结果:最终纳入研究的MBs有330人,38人(11.52%)是实验室确认的HIV阳性,63人(19.09%)有性传播疾病史(STI)。147人(44.55%)曾经使用基于网络的途径来寻找性伴侣。前三种性交类型为肛交(99.39%),手淫(86.39%)和口交(83.23%)。使用基于网络的途径寻找性伴的MBs更倾向于是本地人,较高的月收入,兼职工作,高危性行为(比如更多的肛交次数,吻肛,指交),使用助性剂以及具有性病史。使用基于网络的途径来寻找性伴的MBs和不使用网络的途径来寻找性伴的MBs的HIV感染率分别为12.93%和10.38%,但两组之间的差异无统计学意义。本研究中的MBs主要来自于中国北部,比如东北地区的辽宁,吉林,黑龙江及山东省等。且纳入研究的MBs具有较强的流动性,天津,北京和上海是前三个MBs流入最多的城市。在这些参与调查的MBs中,257(77.9%)MBs在过去的6个月曾经去过两个或者更多的地方。进一步地研究了MBs的流动性模式,在过去6个月曾经去过两个目的地并且发生性行为的MBs更倾向于是非当地人口(99.1%),月收入少于8000(88.2%),未检测过HIV(51.8%),具有较少的关于免费抗病毒治疗政策的知识(59.1%)。同时在过去6个月曾经去过3个及以上目的地MBs更倾向于从业时间超过12个月(69.4%),全职(88.4%),性伴侣数≥16(46.3%),肛交次数≥16(55.1%),曾经检测过HIV(76.9%),知晓免费抗病毒治疗的相关政策(60.5%)。潜变量类别分析显示,MBs人群可以分为4个亚组,即“相对安全性行为组”、“高危性行为组”、“多性伴组”和“无保护性行为与助性剂使用组”,并且四个亚组在HIV感染率上的差异有统计学意义。进一步的研究发现四个亚组在户籍地,月收入,从业状态、HIV检测和免费抗病毒政策知晓上的差异有统计学意义。且“高危性行为组”感染HIV的概率是“多性伴组”的4.06倍(1.31-12.59)。五种分类算法分析结果显示,在运行时间上,Logistic回归、CART、支持向量机、随机森林和神经网络运行时间依次增加;在原数据集上,神经网络在AUC上表现最好,支持向量机在F1上表现最好,随机森林在G-mean上表现最好。而在新生成的数据集上,支持向量机在AUC上表现最好,随机森林在F1上表现最好,神经网络在G-mean上表现最好。相比于Logistic回归,其他几种算法在不同数据集和不同指标上均有不同程度的提升,同一种算法在新数据集上相对于原数据集也均有不同程度的提升。应用数据分类算法显著地提升了MBs人群数据的分类性能。进一步的研究发现采用少数类人工合成多数类欠采样的技术(SMOTE)可以解决数据不平衡的问题,通过比较五种分类算法的分类时间和分类效能指标可以发现,logistic回归、随机森林和支持向量机在运行速度上,AUC略有提升,logistic回归和神经网络在指标G-mean上略有提升,五种分类算法在指标F1上均有不同程度地提升,表明应用SMOTE技术对数据进行合成后再处理可以提高分类器的分类效能。结论:研究结果显示基于网络的途径来寻找性伴侣、流动性强、高危性行为、预防保护意识和措施差的MBs具有较高的HIV感染风险。应特别注意对这一人群开展有针对性的精准干预。数据分类算法(logistics回归、神经网络、支持向量机、随机森林和CART)可以较准确地、可靠地识别MBs的HIV感染风险。SMOTE在一定程度上解决了分类研究中数据的类不平衡问题。