文章

人工智能训练师四级易错题总结

中国人工智能训练师入门考试

人工智能训练师四级易错题总结

介绍

考前把易错题的内容总结在这篇文章里。重点章节是数据标注和智能系统运维。

四级分理论(1.5小时)和实操(2小时)两部分,都很简单,定义概念不要弄混,背一下口诀,把模拟考的题目刷完,各60分即可。

职业道德和基础知识

这两部分太基础了,几乎中国大部分的国家考试都会带到,这里就不说了。

数据采集和处理 - 业务数据质量检测

  • 常见噪声数据的处理方法
种类定义
人工检查根据业务和对数据本身的理解,人为的进行数据筛选
统计模型对于正态数据,利用3个标准差原则或四分位差进行去噪
分箱通过考察数据的附近的值来光滑有序的数据值
聚类聚类是将相似的数据点分为一组。对于噪声数据,聚类可以通过检测离群点来去除
回归用一个函数拟合数据以达到光滑数据,主要方法有线性回归和非线性回归
  • 数据质量评价(4R原则)
原则定义
关联度在人工智能领域,关联度是评价数据质量的首要指标
时效性数据应该有较强的时效性,特别是资讯类的数据,对时效性的要求更高
范围在人工智能领域,范围极大地影响着数据质量,而且范围也代表了数据的完整度
可信性数据的可信性是获取用户信任的关键
  • 业务数据采集工具

Ajax异步更新网页技术是实时的,其他都是离线的。

  • 数据预处理步骤
步骤定义
数据清洗使数据格式标准化、清除异常数据、清除重复数据、错误纠正
数据归约得到数据集的归约表示以减少数据量并且使规约前后结果几乎相同
数据变换将数据转换为适用于数据挖掘的形式
  • 数据挖掘步骤
步骤定义
定义问题必须要对目标有一个清晰明确的定义
数据理解拿到数据后要做的第一步就是理解数据,理解数据是要结合自己的分析目标,带着具体的业务需求去看
数据准备删除错误数据、插入缺失值、查找数据中的隐含相关性、标识最准确的数据源并确定哪些最适合用于分析
建立模型仔细考查不同模型以判断哪个模型对该商业问题最有用
评价模型模型建立好之后必须评价得到的结果,解释模型的价值
部署模型提供给分析人员做参考或者把此模型应用到不同的数据集上

数据采集和处理 - 数据处理方法优化

  • 数据库三层体系结构
名称定义
模式(概念模式)模式表示概念级数据库,是内模式的逻辑表示
内模式(存储模式)内模式表示物理级数据库,是模式的物理实现
外模式(子模式)外模式表示用户级数据库,是模式的部分抽取
  • 数据仓库系统组成
名称组成定义
管理层(ETL管理工具)数据仓库定义部件、数据获取部件、数据管理部件、元数据管理部件完成数据仓库的定义,完成数据的抽取、转换、装载,完成数据的归档、备份、维护、恢复及元数据的管理等
存储层(数据仓库和数据集市)  
分析工具层(OLAP、数据挖掘)主要由一些分析工具组成,包括检索查询工具、多维数据的OLAP联机分析工具、统计分析及数据挖掘工具等 

数据标注 - 数据归类和定义

  • 数据分类的基本原则(口诀 : 淑芬温习柯总监):稳定性、系统性、可扩充性、综合实用性、兼容性

  • 统计调查的种类和方法

这里有个易错题,要注意不同性质的分类和其内容。

性质类别内容定义
调查对象对象范围  
 全面调查全面调查是对构成总体的所有单位进行逐一调查登记的一种调查方式。普查和全面统计报表都属于全面调查
 非全面调查非全面调查是对构成调查对象总体的一部分单位进行调查登记的一种调查方式。抽样调查(客观随机)、重点调查(客观重点)、典型调查(主观代表)都属于非全面调查
调查时间  
 经常性调查经常性调查是指随着调查单位情况的变化,随时将变化的情况进行连续不断的登记。经常性调查都是定期调查
 一次性调查一次性调查,可以是定期进行的,也可以是不定期进行的
组织形式  
 统计报表统计报表是按国家统一规定的表式和内容,自上而下统一布置,自下而上提供统计资料的一种统计调查方式
 专门调查专门调查是为了研究某些专门问题所组织的调查。这种调查多属一次性调查,如普查、抽样调查、典型调查、重点调查等
  • 数据类型

从上到下,低级到高级。口诀 :

类无排序,序有。

距无零点,比有。

时间序列是段,

截面数据是点。

类型定义
定类数据分类、平等并列、无数量信息、各类不排序
定序数据分类、平等并列、无数量信息、各类可排序
定距数据两个不同变量值之间的差异,不存在绝对零点
定比数据两个不同变量值之间的差异,存在绝对零点
时间序列数据现象随时间变化的情况
截面型数据现象在某一时刻变化的情况
  • 数据聚类性能的度量指标

口诀 : 2D内部,其余外部。

  • 数据分析
分析方法特点考点
对比分析在单一指标下分析的方法存在时间、空间、标准上的对比,例如时间上的有纵比、同比、环比等等
分组分析同上分组分析是将总体数据按照某一特征性质划分成不同的部分和类型进行研究,从而深入分析其内在规律
平均分析同上用平均数来反映数据在某一特征下的水平的方法。平均分析通常和对比分析结合在一起,从时间和空间多个角度衡量差异,找到其中的趋势和规律
交叉分析同上又称立体分析法,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法
综合指标分析在复杂数据情况下,将多个指标转换为一个综合指标,并对某一特征进行总统评价步骤 : 确定指标-填充数据-确定权重(历史经验)-综合分析(加权值=原值x权重)
  • RFM分析模型(分析客户模型)

RFM模型是衡量客户价值和客户创利能力的重要工具和手段,是根据客户活跃程度、消费次数和消费金额贡献值进行客户价值细分的方法。RFM分析其实是降维思维的体现,将3个维度的值综合成一个值。

RFM分析中三个维度 :

  1. R: Recency(越小活跃度越高) : 客户最近一次消费(购买)时间的间隔。可以理解为天数的间隔。
  2. F: Frequency(越大消费频次越高) : 客户在最近一段时间内消费的次数。F值越大,表示客户消费频次高,越活跃。
  3. M: Monetary(越大消费金额越高) : 客户在最近一段时间内消费的金额。M值越大,则客户消费金额越高。
  • 统计与概率(参数估计)
类别定义考点
点估计点估计就是直接以样本统计量作为相应的总体参数的估计量。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值构造一个只依赖于样本的量
区间估计区间估计,就是在一定的概率保证下,由样本指标推断总体指标可能在的区间,这个区间称为置信区间由样本指标推断总体指标可能在的区间
  • 统计与概率(假设检验,这里很重要,一般都会做)

定义 : 假设检验是统计推断的另一项重要组成部分,是参数估计的延续,是对参数估计在统计上的验证与补充。

与区间估计的区别 :

  1. 疑问句、概率小、既有基期数据又有报告期数值,则是假设检验。
  2. 祈使句、概率大、没有基期数据、只有样本资料,则是区间估计。

两类错误 : 如果能用事实推翻原假设,从而接受备择假设,这是检验者最希望出现的结果

  1. 弃真 : 第一类、原假设正确、但是我们拒绝原假设。例如,法庭错判了一个无罪的人。
  2. 存伪 : 第二类、原假设错误、但是我们接受原假设。例如,明知道这人有罪却无法给他定罪。
  • 概率分析
分析方法解析应用场景
对应分析对应分析也称关联分析、R—Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系,可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系捆绑销售、购物推荐
因子分析在许多变量中找出隐藏且具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目(降维);提取公共因子物流速度对提升NPS满意度的贡献程度
相关分析研究两个或两个以上处于同等地位的随机变量间的相关关系:变量之间的关系是对等的,两者都是随机变量。 因素数量 :单相关、复相关、偏相关; 表现形态 :直线相关、曲线相关; 相关程度 :完全相关、不相关; 变化方向 :正相关、负相关、不完全相关; 相关性质 :真实相关、虚假相关天气对于交通拥堵程度的影响
回归分析确定两种或两种以上变量间相互依赖的定量关系。自变量是确定的,因变量是随机的。 变量数量 :一元回归和多元回归。 因变量数量 :简单回归分析和多重回归分析。 自变量和因变量之间的关系类型 :线性回归和非线性回归碳水摄入量对人体肥胖程度的影响
方差分析方差分析可以用于两个及两个以上样本均数差别的显著性检验 
  • 时间序列

编制原则 : (口诀 : 诗经总集)

  1. 时间长短应一致
  2. 经济内容应一致
  3. 总体范围应一致
  4. 计算方法与计量单位要一致
  • 数据审核标注
标注类别质检点考点
标注框类型目标框是否贴合、目标类别是否正确、目标属性是否正确、漏标/多标、文本转写、关联一致性目标框
区域标注目标区域是否贴合、目标类别是否正确、目标属性是否正确、漏标/多标、文本转写、关联—致性目标区域
视频数据是否贴合、属性是否正确、漏标/多标、关联—致性 
关键点顺序、数量、位置、颜色、预估是否合理顺序
语音有效性错误、截取错误、文本错误、特殊部分的质检点有效性、截取、文本
  • 数据集划分与对应作用

定义 : 训练有监督学习模型的时会将数据划分为训练集、验证集和测试集,最常见的训练集、验证集和测试集的划分比例为0.6:0.2:0.2 训练集 : 用来训练算法模型 验证集 : 用来查看训练效果 测试集 : 测试模型的实际学习能力

智能系统运维

  • 客服机器人

客服机器人的评价维度的模型通常由接待能力和应答能力两个方面组成。

  1. 接待能力 : 评价机器人能够接待多少提问用户,在何种程度上替代人工。
  2. 应答能力 : 机器人能否回答用户的问题,由机器人的知识范围决定。机器人的回答是否正确,由机器人的知识库质量决定。
评价维度目的公式分类 
产品使用率用于分析用户对于产品的感兴趣度产品使用率 = 使用用户数 / 总用户数或曝光用户数  
业务识别率指在整个人机对话中,被机器人识别为业务问题的数量占总提问数的比例   
准确率指回复正确的对话数占考察范围内对话数的比例   
拦截率直接结束了本次会话的情况拦截率 = 1 - 转人工总会话数 - 无效转人工会话数 - 设定转人工会话数 / 1 - 无效会话数 - 设定转人工会话数。拦截率的计算必须是基于有效会话的一次会话、一次对话、无效会话、无效转人工会话 
跳出率某一类任务(或技能)对话中断的比例,用于分析对话机器人的产品设计友好度跳出率 = 某类任务的对话中断数 / 某类任务的对话总数  
异常率用户使用对话机器人过程中的异常状况出现的比例,用于分析对话机器人的异常率找出关键问题并快速修复异常率 = 异常报错数 / 会话session数  
满意度满意度通常以主动推送、满意度指标相对主观、是一个结果指标,无法直接指明问题所在   
差评数关注差评率是更客观的评价方式   
解决率答案解决率就是机器人给出了答案后,用户是否转人工,若是转人工了,说明答案无法解决用户问题,如果没有转人工,一定程度上可以理解为解答了用户问题解决率 = 解决问题的会话数 / 总有效会话数  
业务覆盖率当业务覆盖率越高时,则客服机器人可以理解更多的用户意图   
最终结果触达率用于分析对话流程的流畅度   
业务目标考点公式
平均对话轮次用于分析任务型对话机器人的对话流程健康度平均对话轮次 = 某类任务的对话轮次 / 类任务的对话总数
推荐结果点击率用于分析有GUI的产品推荐内容的精准度推荐结果点击率 = 推荐答案或内容的点击(或采纳)次数 / 推荐次数
  • 智能系统优化(分析方法)
  1. 逻辑树分析方法 : 把复杂问题拆解成若干个简单的子问题,不是单独存在的,会融合在其他分析方法里,辅助解决问题。
  2. 多维度拆解分析方法 : 考察数据整体和考察数据的不同部分,会得到相反的结论。也就是“辛普森悖论”。
  3. 漏斗分析方法(重点) : 从业务流程起点开始到最后目标完成的每个环节都会有用户流失,因此需要一种分析方法来衡量业务流程每一步的转化效率。作用是“定位问题节点”。常用于用户转化分析或者用户流失分析。
  • 智能系统优化(检验方法)
检验方法定义公式目的
Z检验用样本均值抽样分布检验显著性水平Z = 观察值 - 零假设下的期望值 / 标准误差检验统计量是用来度量已测量的样本数据和零假设下的期望值之间的差距,并且这个距离要用z值来表示
T检验自由度、t分布T = 观察值 - 零假设下的期望值 / 标准误差 
 自由度 : 在估计总体均值时,样本中的n个数都是相互独立的,从中抽取任何一个数都不影响其他数,这就可以认为n个元素都是自由的,所以自由度为n  
 t分布 : t分布最大的特点是与自由度息息相关,自由度越大曲线越陡峭,当自由度一直增大,曲线逐渐接近标准正态分布,对于每一个自由度,都有一条独立的t分布曲线  
卡方检验卡方分布曲线和t分布曲线都是一簇曲线,随着自由度的变化而变化,当自由度越大,越趋向于正态分布曲线x2方 = Σ(观察值— 预测值)2方 / 预期值 
F检验F检验是对样本正态总体方差 的检验,因此又叫“方差齐性检验”。在回归分析中,用F检验来判断因变量与自变量之间的线性关系是否显著,就是判断其方差是否相等  
  • Excel的动态图表绘制方法
  1. 函数定义图表的数据源通常有两种方式:一种是辅助列法,构建辅助区域,将图表的数据源重新建立到空白区域。另一种是名称法,将图表的数据系列定义为名称,使用定义的名称来动态引用数据源并建立图表。
  2. Excel创建动态图表的常用方案有工作表函数和数据透视表两种 : 数据透视表的切片器,可以看作一种图形化的筛选方式。它可为数据透视表中的指定字段创建一个选取器,浮动于数据透视表之上。通过选取切片器中的数据项,用户可以动态获取对应的数据。因此,借助数据透视表切片器,也可以创建动态图表。

总结

一共5个部分 : 职业道德、基础知识、数据采集和处理、数据标注、智能系统运维。其中最重要的是数据标注。

错题集

第一个()中的为答案 第二个为解析

  1. 作为管理资源的数据资源不仅限于数据本身,还包括用以(产生、加工)、存储和使用数据的资源。
  2. 以下不属于时间序列编制原则的选项是 : (数值取值范围要一致)
  3. CSV,XML和JSON格式都是常见的数据标注结果导出格式并且均属于全结构化的文件格式。(错误)(都是半结构化)
  4. 以下不属于语音标注中文本错误质检点的选项是 : (一人多录、一号多人)(属于有效性错误。文本错误质检点:多字少字、错字别字、数字转写错误、语气词加口字旁、英语、符号上多余或缺失导致的严重语法语义问题)
  5. .rmv文件格式代表可变比特率视频格式文件。(正确)
  6. 统计学中关于相关关系种类的描述,不正确的选项是(按相关关系的表现形态可分为折线相关、直线相关和曲线相关)(没有折线。)
  7. 一般来说,在Google Analytics服务内容包不满足需求的条件下才自定义数据集。(正确)
  8. 在图像标注中,以下属于视频数据标注类型质检点的选项是(关联一致性)
  9. 下列关于语音合成描述错误的是(语音合成的英文简拼为ASR)(是TTS)
  10. 以下对于Excel基本操作的说法正确的是(可以右键单元格区域选择【设置单元格格式】通过【对齐】选项卡设置合并单元格)
  11. 以下关于客服机器人的评价维度中拦截率的说法错误的是(用户与机器人的一次交互算作一次会话)(多次交互算作一次会话)
  12. 在Power BI (商业智能)的多维数据集管理工具中,删除属性并获得相应的颗粒度时必须移除准备删除的属性(错误)(可以直接用”删除列”按钮)
  13. 在Windows 10文件资源管理器中使用Ctrle+”键可以调节图标的大小(错误)(在Windows 10文件资源管理器中,点击“查看”选项卡,在布局中选择图标大小)
  14. 以下不属于典型的关系代数的运算选项为(关系的除运算)
  15. 以下对于PowerPoint2019基本操作的说法错误的是(在PowerPoint中,通过“SmartArt图形”功能插入的形状不能设置文字)
  16. 商用数据标注平台对语音识别标注建立可配置模板一般需要考虑使用语言(正确)
  17. 下列数据库实体联系(Entity-Relationship,E-R)模型向关系模型的转化叙述正确的是(1:1的联系可以单独成为一个关系模式)
  18. 以下关于Python使用第三方库pyodbc实现导入Access数据库的方法,描述错误的选项是(pyodbc库支持数据库的增、改、查功能,但不能删除数据)
  19. 推荐结果点击率是某一类任务的对话轮次的平均数(正确)
本文由作者按照 CC BY 4.0 进行授权