论文部分内容阅读
随着通信网络技术的发展,人们对电信服务的质量要求也在不断提高,对电信服务的挑战越来越大。人们不在满足于先前电信服务“可用”的需求,而更加趋向于精细化,个性化,高质量化。电信欺诈作为一种最为常见的诈骗手段,直接影响了电信用户的体验和服务质量,电信诈骗问题不单单会对用户造成不必要骚扰。一些电信欺诈甚至会对用户的人身财产安全造成威胁。在电信行业的发展中,也积累了巨量相关的数据,这些数据可以用于反诈骗平台的研究。因此,国家电信部门希望利用这些积累的数据,对电信诈骗行为进行精准分析。并且希望能够利用这些分析结果提出对电信诈骗行为进行准确的分类,从而对电信诈骗行为进行有针对性的追踪,分析和拦截。在电信部门对于电信反诈骗的需求下,面向电信诈骗的反诈平台项目正式启动。电信诈骗包含了许多类型,从技术方面分类,可以将电信诈骗主要的分为两个类型:录音型诈骗和语音型诈骗。录音型诈骗由于其频谱特征比较明显,可以比较容易地采用算法过滤,而语音型诈骗则较为难以识别,而语音型诈骗正式本文反诈系统的识别目标。本课题旨在实现一个电信反诈平台。通过利用电话录音信息,通过应用多种算法手段,包括语音识别,自然语言处理的方式,来对电信诈骗行为进行多角度的分析和挖掘。并且利用这些分析结果构造一套能够有效拦截电信诈骗电话的系统。相较于之前的反诈骗系统只能通过用户主动标记,拦截可疑流量的方式,这一套反诈平台更加合理。直接利用用户通话信息进行拦截,不会存在之前的反诈系统“换号无法识别”的问题,能更好的在诈骗行为发生时甚至发生之前就对相关电话进行拦截。为了实现这一系统,本文首先查阅了调研了相关领域的技术资料,确保整个系统的技术可行性。然后系统分析了项目需求,并且结合这些需求对系统模块进行了划分,对每一个模块的功能作用进行了软件工程级别的设计和划分。为了使得语音识别的结果更加精准,更有利于分析,本文提出了一种基于deepspeech2架构的新颖模型。相较于deepspeech2能够更好地利用多种语音信息从而达到效果提升,并且针对客服电话语音分类的子问题。本文提出了一种基于I-CNN的语音分类算法,该算法能够更好地适应客服电话的特征。对于语音识别的结果,本文提出了一种新颖的文本分类方法。针对语音识别结果不尽准确的特点,并不直接将语音识别的文字作为输入,而是将语音识别结果和识别结果的概率分布同时送入文本分类模型从而获得效果上的提升。上述几个关键问题算法经过了本文设计的很多实验的验证,并且得到了专业学术期刊以及会议的认可。本文解决的这些关键问题使得整个系统的设计和实现成为可能。本文围绕着系统的关键问题,和需求以及详细设计,构建了一套合理可用的电信反诈平台。经过本文的测试,该平台能够很好地满足电信反诈需求。在文章的最后,本文对该系统的实现进行了总结和展望。