网站制作设计收费标准,软件通网站建设,企业建站免费模板,网站建设个一般需要花费多少钱前言DCASE 2017继续通过比较使用公共可用数据集的不同方法来支持计算场景和事件分析方法的开发。 声音带有大量有关我们日常环境和身体事件的信息。我们可以感受到我们所在的声音场景#xff08;繁忙的街道#xff0c;办公室等#xff09;#xff0c;并且识别出各种声源繁忙的街道办公室等并且识别出各种声源汽车通过脚步声等。开发用于自动提取信息的信号处理方法在多个应用中具有巨大的潜力例如基于其音频内容搜索多媒体使上下文感知移动设备机器人汽车等以及智能监控系统识别其环境中的活动使用声学信息。然而仍然需要大量的研究来可靠地识别现实声音中的声音场景和个体声源其中多个声音通常同时存在并被环境扭曲。 音频场景识别概述 音频场景识别的目标将测试记录输入分类为所提供的预定义类别之一其描述了记录环境的一个环境例如“park”“home”“office”。 音频数据集 TUT声学场景2017数据集将用作任务的开发数据。数据集由来自各种声场的记录组成具有不同的记录位置。 对于每个记录位置捕获了3-5分钟的长音频记录。 然后将原始记录分割成长度为10秒的段。 这些音频段在单独的文件中提供。 声场任务15 公共汽车 - 乘汽车在城市车辆咖啡厅/餐厅 - 小咖啡厅/餐厅室内汽车驾驶或作为乘客旅行在城市车辆市中心室外森林小径户外杂货店 - 中型杂货店室内家室内湖畔沙滩室外图书馆室内地铁站室内办公室 - 多人典型工作日室内住宅区室外火车行车车辆电车行车车辆城市公园室外 详细的数据集描述见DCASE 2016 任务1页面 数据集说明 该数据集于2015年6月至2017年1月期间由坦佩雷理工大学在芬兰收集。数据收集已获得欧洲研究理事会的资助。记录和注释程序对于所有的声场记录被捕获在不同的位置不同的街道不同的公园不同的家园。录音使用Soundman OKM II Klassik /演播室A3驻极体双耳麦克风和使用44.1 kHz采样率和24位分辨率的Roland Edirol R-09波形录音机进行。麦克风专门用于看起来像戴耳机的耳机。因此记录的音频与到达佩戴设备的人的人体听觉系统的声音非常相似。 记录数据的后处理涉及与记录个人隐私有关的方面。对于在私人场所录制的音像材料所有相关人员均获得书面同意。记录在公共场所的材料不需要同意但内容被筛选隐私侵权细分被淘汰。麦克风故障和音频失真被注释并且注释被提供有数据。基于DCASE 2016的实验消除训练中的误差区域不会影响最终的分类精度。评估集不包含任何此类音频错误。 下载 如果您使用提供的基线系统)则不需要下载数据集因为系统将自动为您下载所需的数据集。 开发数据集:https://zenodo.org/record/400515。或者使用单独文件方式分别下载 任务设置 TUT声场2017数据集由两个子集组成开发数据集和评估数据集。开发数据集由完整的TUT Acoustic Scenes 2016数据集2016年挑战的开发和评估数据组成。将数据划分为子集是基于原始记录的位置完成的因此评估数据集包含类似音频场景的记录但是来自不同的地理位置。从相同原始记录获得的所有段都包含在单个子集中 - 开发数据集或评估数据集。对于每个声场开发数据集中有312段52分钟的音频。有关数据记录和注释程序的详细说明。 开发数据集为开发数据集提供了交叉验证设置以使结果报告与此数据集统一。该设置由四个折叠组成根据位置分配可用段。折叠在目录评估设置中提供数据集。所提供的设置的折叠1通过使用2016开发集作为训练子集和2016评估集作为测试子集来再现DCASE 2016挑战设置。 重要提示如果您没有使用提供的交叉验证设置请注意从相同原始录制中提取的段。确保对于每个给定的折叠来自相同位置的所有段必须在测试子集中的训练子集OR中。 评估数据集:没有实质的评估数据集将在提交截止日期前一个月公布。完整的实地元数据将在DCASE 2017挑战和研讨会结束后公布。 评估 声场分类的得分将基于分类精度正确分类的段数占总段数的比例。每个段被认为是独立的测试样本。评估在基线系统中自动完成。使用sed_eval toolbox进行评估。基线系统 基线系统旨在实现声场分类的基本方法并在开发系统时为参与者提供一些比较点。所有任务的基准系统共享代码库为所有任务实现非常相似的方法。当使用默认参数运行时基准系统将下载所需的数据集并生成下面的结果。 基线系统基于使用对数梅尔带能量作为特征的多层感知器架构。使用5帧上下文导致特征向量长度为200。使用这些特征一个神经网络包含两层致密的50层隐藏单元和20%个辍学(dropout)单元训练了200次。分类决策是基于softmax类型的网络输出层。基准系统文档中提供了详细的描述。基准系统包括使用精度作为度量的结果评估。 基线系统使用Python2.7和3.6版实现。允许参与者在给定的基准系统之上构建系统。该系统具有数据集处理存储/访问特征和模型所需的所有功能并且对结果进行评估使自己的需求更加容易。基线系统也是入门级研究人员的良好起点。 运行基线系统的运行结果 基线系统指导手册和教程基线系统介绍基准系统旨在降低参与DCASE挑战的障碍。它提供了一个简单的入门级方法但是与现有技术系统相对较接近为所有任务提供合理的性能。高端的表现让参与者找到挑战。 在基线中使用特定于应用程序的扩展可以在任务间共享一个单一的低级方法。其主要思想是展示任务设置中的并行性以及在系统开发过程中如何轻松地在任务之间跳转。 主要基准系统实施以下方法 声学特征在40ms窗口中提取具有20ms跳跃尺寸的熔融能量。 机器学习使用多层感知器MLP类型网络的神经网络方法每层有50个神经元的2层层间差异20。 除此之外还包括基于高斯混合模型的系统进行比较。 该系统是为Python 2.7和Python 3.6开发的它可以在LinuxWindows和Mac平台上使用。 系统框图 基于多感知机的系统DCASE 2017基线系统说明选择基于多感知器的系统作为DCASE2017的基准系统。该系统的主要结构与现有的基于循环神经网络RNN和卷积神经网络CNN的现有技术系统相近为进一步开发提供了良好的起点。该系统是围绕Keras实现的这是一个用Python编写的高级神经网络API。Keras在多个计算后端之间工作其中选择了Theano作为该系统。 系统细节 声学特征在具有20ms跳跃尺寸的40ms窗口中提取对数梅尔带能量。机器学习使用多层感知器MLP类型网络的神经网络方法2层每层有50个神经元层间差异20。系统参数 基于GMM的方法基于高斯混合模型的辅助secondary系统也包括在基线系统中以便与文献中提出的传统系统进行比较。基于GMM的系统的实现非常类似于DCASE2016挑战任务1和任务3中使用的基准系统。有关DCASE2016所用系统的更多详细信息 Annamaria Mesaros, Toni Heittola, and Tuomas Virtanen, “TUT database for acoustic scene classification and sound event detection”. In 24th European Signal Processing Conference 2016 (EUSIPCO 2016). Budapest, Hungary, 2016.。 系统细节 声学特征20个MFCC静态系数包括第0个 20个增量MFCC系数一阶导数 20个加速度MFCC系数二阶导数 60个值在具有50跳跃尺寸的40ms分析窗口中计算。 机器学习高斯混合模型每类模型16个高斯16 Gaussians per class model。 系统参数 流程图 详见网页中关于框图的详细介绍 应用 文件分类的平均准确度。OverallFoldssystemAccuracy1234基于多感知机系统2017年基线74.8%75.2%75.3%77.3%71.3%基于GMM 系统74.1%74.0%76.0%73.1%73.2% 场景分类结果 安装(下载地址) 该系统是为Python 2.7Python 3.5和Python 3.6开发的。 该系统经过测试可在LinuxWindows和MacOS平台上工作。可以安装官方CPython或使用一些基于它的Python发行版。 推荐使用新用户使用Anaconda Python发行版。 在Windows上使用系统基线系统使用相当长的目录路径因为它将系统参数的32个字符的MD5哈希存储到目录名中。 某些Windows系统具有路径长度限制最低260个字符这是导致问题的。 为了避免与此相关的问题请将系统尽可能靠近驱动器根目录安装。