973计划项目数字内容理解的理论与方法(编辑修改稿)内容摘要:

问题的支持。 例如,科学研 13 究中,例外是推动科学进展的原动力,人们只有发现不满足规则的例外,才引发新的思考,情报与安全信息学中关于非正常行为检测,同样是这样的,正常行为就是规则,我们需要从大量数据中发现的是相对于正常行为的例外。 关于这个问题,我们从两个方面考虑:其一,如果我们获得的对象数据对标记来说,其数量是平衡的,但 是观测数据是不平衡的,我们使用 reduct 理论中的性质,可以逐步根据用户需求发现不同粒度的例外。 这里用户需求是十分重要的,因为不同的场景下,规则不同,例外就不同,非正常行为的定义就不同。 目前,根据我们在符号机器学习中的研究结果,给出了一个可以找到包含在数据集合中任一解答的方法,并且对一个解答的计算复杂性一定是多项式的。 其二,考虑标记数量不平衡的情况,对情报与安全问题,这是普遍存在的,因为“遵纪守法”的行为还是大多数。 我们今年主要为研究这种情况作理论方法准备,主要研究的方法有两种: (1)基于数据的方法,我们 今年主要发展 oneclass 方法,并使这种方法能够适应例外分析,获得了一系列理论研究结果 (参见统计机器学习一节 )。 (2)基于社会模型的方法,目前,主要以交通系统分析与决策为实验场,关键的考虑是,将 各种交通模型集成到人工交通系统这个实验环境中,进行分析、决策与演化。 作为该方向理论探索的一项 应用研究,其目标是将蛋白质结构实验的大量质谱数据 (一次生物学试验大约 3 万张质谱图 ),根据特定需求,尽量降低到用户可以阅读的数量级。 为此,我们设计了一个软件,成功将阅读量降低到只 需阅读总数据量的 1%以下。 据报道,自这个软件正式公布之后,它已被国际上近 30个研究机构所使用。 4.自然语言理解的交互引擎研究 (1)形成了关于人类专业活动的底层和中层概念基元的表示式,确定了基元表达的具体内容;其次,为设计形成的中底层概念节点指派和捆绑了相应的领域句类知识,以便建立句群一级的概念联想脉络。 上述工作正在正常进展。 截至目前,专业活动( a 行)的延伸结构已经完成 70%以上,对应的领域句类知识的描述完成 40%以上。 (2) 建立形成了 HNC 理解处理的软件平台,这一平台已经开始服务于自然语言理解的交 互引擎的 有关处理策略 研究。 围绕 HNC 理解处理的 14 软件平台的搭建,主要研究进展包括:基于形式化规则的可扩展软件平台的设计与实现;语义块感知和句类假设;句类检验和语义块构成;句群构成分析;语境单元基本信息的初步获取。 围绕这一平台,还研究了句群小句间主语义块的共享关系,探讨了省略语义块的恢复策略和规则。 (3)制定了详细的标注规范,使语料标注人员和语料库的使用者能够清楚地掌握标注符号集、标注符号的定义和使用原则等。 (4)建立形成了 HNC 语料库标注加工管理工具, HNC 语料标注是指按照 HNC 语料标注规范对语句、 句群、 段落以及篇章的概念结构 进行标注,添加语言的和解释性的信息。 HNC 的语料标注包括两个方面: 语言空间 标注和 语言概念空间标注。 在语料文本上进行语言空间的标注,重点是给出各种切分的类型与切分点;进行语言概念空间标注,重点是给出语言概念空间的各种结构信息。 (5)在 HNC 语料库标注加工管理工具的基础上,着重研究分析了汉语动词形态困扰的表现形式和分布状态,获得了汉语中各种动词处理难点的基本分布数据,提出了相应的处理策略。 5.音频场景分析 语音的分离线索( cues)包括语音的 pitch 信息, onset / offset信息以及幅度调制信息等。 由于自下而上的原始( primitive)语音分离方法的分离效果在很大程度上依赖于底层分离线索的准确性,因此准确获取这些底层分离线索在混合语音的分离研究中具有非常重要的意义。 为了对分离线索进行准确估计,在 pitch 信息获取方面,借鉴了形态学和统计模式识别中的方法,将形态学滤波、多空间隐马尔可夫模型( multi- space HMM)应用到语音的 pitch 跟踪和估计中,获得了单 pitch 和 multi- pitch 情况下较为准确的 pitch 信息。 在语音的 onset / offset 检测方面,吸收了图像处理中有关边界检测的理论和方法,通过在 onset / offset 检测过程中引入尺度变换和多尺度融合的思想,获得了较为准确的 onset / offset 位置信息。 在幅度调制方面,通过对信号的包络计算 AM rate,解决了前端听觉模型处理后高频段语音谐波的不确定性问题,从而为高频段语音流的组织提供了可靠的参考依据。 15 经过上述方法提取出来的信息被作为语音分离的线索应用到计算听觉场景分析( CASA)的组织( Grouping)过程中,有效地提高了混合语音信号的分离效果。 基于数据驱动的混合语音分离算法 基于数据驱动的混合语音分离是信号分离的传统方法,其信息在整个过程中是自下而上单向流动的。 这种方法从语音的感知原理出发,结合语音自身的特性,通过以一系列的分离线索和信号在时间、频率上的连续性为指导,最终实现混合语音信号的分离。 在基于数据驱动的混合语音分离研究方面,重点研究了基于 multi- pitch 跟踪和幅度调制的混合信号分离方法。 该算法首先通过multi- pitch 跟踪算法获取信号持续过程中各声源相应的 pitch 轨迹。 然后通过计算听觉谱高频部分的 AM rate,完成对高 频部分相应时频单元的标记。 最后,利用跟踪得到的 pitch 信息和幅度调制信息,结合时间和频率的连续性,实现对信号各时频单元掩蔽( masking)情况的估计,并根据相应的掩蔽值对混合语音进行加权滤波,从而得到分离出的目标语音。 目前应用该方法对混合语音信号进行分离的效果,基本达到世界同类方法中的先进水平。 在研究中,还对如何利用 onset / offset 位置信息来指导分离进行了研究,取得了一定的实施效果。 由于以 onset / offset 为主要线索的分离方法效果上与以 pitch 为主要线索的分离方法有着比较明 显的差距,因此有必要在今后的研究中探索 onset / offset 信息与 pitch 相结合指导分离的新算法,以期获得更好的分离效果。 基于图式驱动的混合语音分离算法 基于图式驱动的混合语音分离方法,其信息在整个分离过程中是满足自下而上和自上而下的双向流动的。 这种方法结合了机器学习的特点,从更高的层次上模拟了人类所具有的学习能力。 在基于图式驱动的混合语音分离问题中,选择什么样的高层知识,以怎样的深度和粒度将其有效的结合到分离过程中,从而更好的指导分离,是该研究的重点和难点所在。 为此我们在两个方向上进行 了研究。 一个方向以语音感知质量的客观评估为依据,通过比较不同切分片段( segments)对语音感知质量的影响来判断相应语音片段的可靠性,从而将语音感知质量这一较高层次的信息结合到分离过程中。 在此基础上通过估计更准确的目标语音 pitch 值,并结合时间和频率上的连续性,完成目标语音的分离。 16 采用上述方法得到的分离语音较之采用数据驱动方法得到的分离语音有着更高的平均评价得分( MOS, Mean opinion Score),因而听起来具有更好的感知质量。 另一个方向以多基音跟踪为基础,结合说话人模型等高层知识,对同时 出现的多个说话人的语音进行说话人识别和分离。 该方法事先对不同说话人训练相应的声学模型。 在分离时,利用 multi- pitch跟踪得到比较准确的 pitch 数据和相应的 pitch 标记文件,之后结合训练好的说话人声学模型,通过对说话人识别和语音片段分离这两个目标的联合优化,实现目标说话人的确认并正确分离出单一说话人发声部分的语音。 经测试,该方法取得了与当前国际上同类算法相接近的处理结果。 6.口语化语音信息的分析与识别 我们围绕 语音库建设 、 语音现象分析 、 语音流自动分段 和 说话人自适应等方向展开 了深入研究,取得了如 下进展: 语音数据库建设方面 ,按照今年的计划 ,我们重点进行了语音数据库的建设。 截至目前,共录制男女平衡语音共计约 60 小时,超过了原先计划预定的 50 小时。 为了研究需要,我们还将继续录制一批数据。 并用于以后的分析和处理。 研究非语义信息提取的语音分析方法。 该方法实现了重音、语速、音调等超音段特征与短时频域特征的有效融合。 尝试了一些缓解说话人识别训练识别信道不匹配影响的方法,在 NIST 说话人识别标准集和自采多信道语音库上 错 误 率 降低了 25%;扩展了语音识别韵律特征。 从语 音信号的韵律特性出发,研究了基于停顿的长篇对话段落的自动分段算法。 已有的自动分段算法主要从信号处理和模式识别的角度研究分段问题,忽视了语音信号特有的属性。 停顿作为重要的韵律特征,反映了语言的结构信息。 捕捉不同长度的停顿,可以有效的将长段语音信号分割成语义信息完整的句子。 研究了三种自动分段算法,它们分别是:基于门限的分段算法,动态噪声跟踪分段算法和基于方差的分段算法。 研究结果表明基于方差的分段算法与常用的基于KL 距离的分段算法相结合后达到较理想的分段性能。 口语化语音 的模型与算法方面 研究了口语化语音 中的说话人聚类算法。 首先 针对广播新闻语音 17 的特点,研究了快速说话人聚类问题。 与一人一句的对话语料不同,广播新闻语音时序上相邻的两个句子属于同一个说话人的可能性较大。 利用这一先验信息,提出了两阶段快速聚类算法。 第一阶段顺序扫描所有句子,用贪心算法得到初始类,该初始类中包含的是时序相邻的属于同一说话人的句子。 第二阶段在初始类基础上,用快速最近邻算法进行聚类,将属于同一说话人的时间不相邻句子聚为一类。 常用的最近邻算法,每次只将合并距离最小的两类,它的合并效率较低。 而快速最近邻算法从最近邻对出发,可尽早将相似的多个类 同时合并到一起,大大提高了算法效率。 对新闻联播语料进行的测试表明,该聚类算法取得了 90%以上的类纯度和说话人纯度。 研究了 HMM 模型中的模型自适应技术,比较了两种模型变换方法:非受限自适应算法,即均值矢量与协方差矩阵分别自适应;受限自适应算法,即均值矢量与协方差矩阵有相同的变换矩阵。 由于存储空间和训练数据的限制,通常在 HMM 模型中只保留协方差矩阵的对角元素。 在非受限自适应算法中对协方差自适应时,并不直接更新协方差矩阵,而是在识别过程中将变换矩阵应用到似然比计算过程中。 这样即节约了存储空间,又保留了全协方差矩 阵的计算精度。 同样,对于受限自适应算法,将自适应后的变换矩阵作用于识别过程中的特征矢量,从原理上等效于同时更新模型均值矢量和协方差矩阵。 实验结果表明,非受限自适应算法较受限自适应算法复杂,但其自适应性能略优于受限自适应算法。 在 基于 MMIE 准则的声学模型训练算法 方面 ,在英文 WSJ任务域和中文 LVCSR系统上做了大量实验验证了算法的正确性,与基线系统相比识别性能有所提高。 在口语化语言模型研究方面,进行了自动语料选择算法的研究,取得较好效果。 在韵律的调整与控制方面,我们研究了不同人的韵律特点以及如何通过建模的方 法来发现他们之间的关系。 在 VAD 方面,主要针对电话系统中,各种通信噪声存在的情况下,进行了新算法的测试,有较好的效果。 噪声消除方面,以维纳滤波器算法为主,采用较精确的噪声更新算法,改进了以往的噪声消除算法,从听觉感知角度取得了较好的效果。 研究了一种改进的声学置信度计算方法,突破了传统声学置信度计算的语音学音素边界,依状态音素的物理声学实现位置定义所在音素的边界,使得声学置信度的性能得到明显提高;另一方面基于 18 Bhattacharyya 距离和 VQ 技术实现了高斯合并和面向高 斯选择的高斯聚类,可在大尺度上近似原声学空间,从而可加速声学置信度的计算。 研究了基于混淆网络的置信度计算方法。 近年来,研究人员发现以基于词格( lattice)的后验概率作为词的置信度度量,要优于基于似然比、时长分布等的置信度度量。 然而此后验概率实为词格中词所对应的边( link)的后验概率。 没有考虑到词格中存在一些来自不同路径而发生时间和内容都相同的词,也没有考虑到词的发声变异现象。 因此该后验概率没有真正反映词的置信度。 在基于混淆网络的置信度度量中,首先利用三元文法、声学得分和前向后向算法计算词格中每条边(边 上包含词号和起始时间等信息)的后验概率。 然后对词格中的边进行聚类,形成混淆网络。 混淆网络由这样的混淆类构成,每个类中包含了起始时间大致相同、词的发音大致相同的边。 以混淆类中的边为基础,重新计算其中包含的词的后验概率,并以此作为词的置信度。 研究了大规模连续语音识别中的搜索图优化方法,搜索图复杂度降低 80%左右,并在一定程度上实现了声学层和语言层的分离。 研究了构建多个语音识别子系统、并且通过 Rover 技术综合多个子系统信息的方法。 综合利用混淆网络和候选词的置信度信息,进一步减少了识别错误率。 在 2020 年, 2020 年 863测试数据上,错误率下降 7%左右。 7.图像序列内容理解 脑功能连接和复杂脑网络的计算理论和方法 (1)精神分裂症及阿尔茨海默氏症的静息状态全脑功能连接分析:提出了从全脑功能连接的角度研究精神分裂症的功能连接异常的新方法,研究发现精神分裂症主要表现为降低的功能连接,并且这种异常的连接。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。