商务服务
【面试招聘】快手 AI算法岗面试及答案解析
2025-01-02 13:12

文章共2000字,预计阅读时间10min


参考目录

  • 1 自我介绍+项目

  • 2 样本不均衡的处理方法

  • 3 随机森林中随机的意义

  • 4 卷积层的缺点

  • 5 最大池化层 vs 平均池化层

  • 6  随机森林中bagging的比例为什么是63.2%

  • 7 卷积网络感受野怎么扩大

  • 8 什么模型需要数据标准化

  • 9 数据标准化的目的是什么

  • 10 如果模型欠拟合怎么办

  • 11 模型中dropout在训练和测试的区别

  • 12 算法题:数组的回文遍历

1 自我介绍+项目

参考答案:略

2 样本不均衡的处理方法

之前文章讲过8种常见的方法:上采样,下采样,二分类变成多分类等多模型方法。

【小白学AI】八种应对样本不均衡的策略

3 随机森林中随机的意义

随机对数据进行样本采样和特征采样。这个随机森林的内容之前的文章也讲解的非常详细啦。下面文章比较长,内容比较全。

【小白学ML】随机森林 全解 (从bagging到variance

4 卷积层的缺点

总之,CNN最大的两个问题在于平移不变性和池化层。

5 最大池化层 vs 平均池化层

这个我不太确定,当时的回答是:平均池化层会让特征图变得更加模糊;最大池化层反向传播中,计算量会小于平均池化层;最大池化层会增加一定的平移不变性和旋转不变性给卷积网络。

根据相关理论,特征提取的误差主要来自两个方面

  1. 邻域大小受限造成的估计值方差增大

  2. 卷积层参数误差造成估计均值的偏移。

一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。

6  随机森林中bagging的比例为什么是63.2%

关键公式

这个详细的计算过程也在随即森林全解的文章中。

【小白学ML】随机森林 全解 (从bagging到variance

7 卷积网络感受野怎么扩大

  1. 池化层。maxpool,avepool,感受野大一倍。

  2. 多个3*3的卷积层可以构成5*5和7*7的视野域。

  3. GCN图卷积网络也可以起到这样的效果,但是对GCN了解的不多。

8 什么模型需要数据标准化

我们可以知道当原始数据不同维度上的特征的尺度(单位)不一致时 ,需要标准化步骤对数据进行预处理。

  1. 聚类模型,kmeans,DBSCAN等聚类算法;2,神经网络

  2. 分类模型,逻辑回归和SVM等

决策树模型则不需要进行标准化,回归模型不用标准化。

9 数据标准化的目的是什么

先说个人理解的答案

  1. 消除图片过曝,质量不佳等对模型权重的影响

  2. 让梯度下降更稳定

大家看上面两只猪,对于人来说,它就是两只一样的猪,只是图片的灰度或者曝光度不一样罢了,于是我们都给它们都标注为“社会人”。虽然我们人眼看起来没有什么毛病,但是对于CNN网络来说,他们的特征很可能不同。这时候一般会对图片事先进行一个Z-Score的标准化(减去均值处以标准差是不是很多朋友都不知道这个方法的学名。) 把不同的图片映射到同一尺度下,因此上述问题就从像素值不同的问题转化成相似的特征分布的问题,一定程度上消除了因为过度曝光,质量不佳,或者噪音等各种原因对模型权值更新的影响。

另外一个原因是,一个图片RGB三个通道,往往三个通道的数据分布不同。比方说可能一个图片的R的数值偏大,这样就会导致反向传播的时候,图片R通道的梯度大,更新快。R通道就会占据模型判断的主导地位。而下一张图片可能是绿色G比较大,更新较快,从而产生一个类似学习率不稳定的问题。

通过Z-Score,把每个通道都变成0均值1方差,让梯度下降更稳定

10 如果模型欠拟合怎么办

这道题一开始问懵了。因为之前的几次面试基本上问的都是如何解决过拟合问题。过拟合问题之前也整理的很好了,突然问欠拟合宕机了。不过这个问题也不难,这里简单说一下个人回答的思路

解决方法

  1. 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的 可以添加其他特征项来很好地解决。

  2. 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。

  3. 减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。减小其他的正则化参数,比如树模型中的参数:叶子结点中中最小样本限制,树深度限制,等等

  4. 增加模型的复杂度,卷积网路哦加深加宽,boost模型增加训练的迭代次数。

不过关键还是在于更多特征的构建把。

11 模型中dropout在训练和测试的区别

Dropout 是在训练过程中以一定的概率的使神经元失活,即输出为0,以提高模型的泛化能力,减少过拟合。

Dropout 在训练时采用,是为了减少神经元对部分上层神经元的依赖,类似将多个不同网络结构的模型集成起来,减少过拟合的风险。而在测试时,应该用整个训练好的模型,因此不需要dropout。

这里我回答错误了,因为我回答成了是在测试的时候,对输出数据乘上p保证训练和输出有大致的期望。其实是在训练的时候除以(1-p)作为补偿,而测试阶段不做处理,相当于去掉dropout层

12 算法题:数组的回文遍历

参考答案:略

- END -
    以上就是本篇文章【【面试招聘】快手 AI算法岗面试及答案解析】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/14671.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
过年无忧 | 一键get这些春节话术!
一键Get这些春节话术~过年无忧新年快乐春节将至,年味渐浓在这温馨又热闹的节日氛围里我们既能品尝各式各样的美味佳肴沉浸于味
2025在新加坡生活的我们将迎来“至暗时刻”:房租飙涨、每个月入不敷出…
聚焦新加坡真是开年暴击!2025年刚开始,还没过新年呢,万事通就出了一身冷汗:今年又是一个物价涨涨涨的年份。在网上一搜“新加
太抽象!太抽象!2024年游戏行业简直太抽象!
年末,DataEye研究院今天整点活,轻松一波。——用数据、新闻盘点2024年国内游戏业有多抽象。回首2024年有产品研发8年烧了数亿,
TikTok会如何收场
TikTok的命运再次悬而不决。在美国下架12小时又恢复运营之后,1月20日,美国总统特朗普签署行政命令,要求TikTok「不卖就禁」法
今天上午10:00,成绩发布!
早安,东台!‍今天是2025年1月22日‍星期三(农历腊月廿三)大美东台,活力满满进取创新、奋斗拼搏最近有哪些新动态?和小东一
农村土地托管服务的理论基础
中国产品流通经纪人协会供销合作行业标准《农产品食品供应商信用评价规范》参编单位征集函中国农产品流通经纪人协会供销合作行业
头上三尺有神明,每个人头顶都有一颗星,当星光消失人也就消失!
每当夜晚降临后,我们抬头看天空,会看到满天的星星,自古以来,人们从没有停止过对星象的观测和研究。古人观测星象,一则是为了
运营师抖音代运营
运营师抖音代运营:掌握流行短视频潮流的神奇职业短视频平台已经成为人们娱乐、学习和社交的重要方式。在众多的短视频平台中,抖
微短剧,2024年“最大赢家”? | 年终盘点
2024,短剧行业大变样。作者 | 张语格编辑 | 趣解商业文娱组“互联网大厂争相入局。”“98%的短剧制作方都在亏钱。”“用户被免
同类第一!20%弹性的人工智能 ETF 科创(588760)今日上市,一键布局科创板优质AI龙头
  最新公告内容显示,广发上证科创板交易型开放式指数投资基金(基金代码:588760;扩位简称: ETF 科创)已于 2025 年 1 月 1