本篇内容介绍了“数据科学家进行机器学习的问题有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
我们提供的服务有:成都网站建设、做网站、微信公众号开发、网站优化、网站认证、江油ssl等。为千余家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的江油网站制作公司
机器学习是近来最受欢迎的技能之一。我们组织了各种技能测试,以便数据科学家可以检查自己的这些关键技能。这些测试包括机器学习,深度学习,时间序列问题和概率。
以下是分布得分,它们将帮助你评估自己的成绩。
超过210人参加了技能测试,获得的最高分是36。以下是有关分数的一些统计数据。
平均得分:19.36
中位数得分:21
模式得分:27
A)特征F1是定类变量的示例。 B)特征F1是定序变量的示例。 C)它不属于上述任何类别。 D)这两个都是
解决方案:(B)
定序变量是在其类别中具有某些顺序的变量。例如,应将A级视为比B级更高的等级。
A)PCA
B)K-Means
C)以上都不是
解决方案:(A)
确定性算法是在不同的运行中,其输出不会改变的算法。如果我们再次运行,PCA会给出相同的结果,但K-Means不会。
A)对
B)错
解决方案:(A)
Y = X2。请注意,它们不仅相关,而且一个变量是另一个变量的函数,并且它们之间的皮尔逊相关性为零。
在GD和SGD中,你以迭代方式更新一组参数以最小化误差函数。
在SGD中,你必须遍历训练集中的所有样本,才能在每次迭代中一次更新参数。
在GD中,你可以使用整个数据或训练数据的子集在每次迭代中更新参数。
A)仅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1,2和3
解决方案:(A)
在每次迭代的SGD中,通常选择包含随机数据样本的批次,但对于GD,每次迭代均包含所有训练观测值。
树数
树深
学习率
A)仅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1, 2和3
解决方案:(B)
通常,如果我们增加树的深度,将导致过度拟合。学习率不是随机森林中的超参数。树的数量增加将导致拟合不足。
你的分析基于诸如作者姓名,同一位作者过去在Analytics Vidhya上撰写的文章数之类的特征以及其他一些特征。在这种情况下,你会选择以下哪个评估指标?
均方误差
准确性
F1分数
A)仅1
B)只有2
C)只有3
D)1和3
E)2和3
F)1和2
解决方案:(A)
可以认为文章的观看次数是属于回归问题的连续目标变量。因此,均方误差将被用作评估指标。
A)
B)
C)
A)1是tanh,2是ReLU,3是SIGMOID激活函数。
B)1是SIGMOID,2是ReLU,3是tanh激活函数。
C)1是ReLU,2是tanh,3是SIGMOID激活函数。
D)1是tanh,2是SIGMOID,3是ReLU激活函数。
解决方案:(D)
SIGMOID函数的范围是[0,1]。
tanh函数的范围是[-1,1]。
RELU函数的范围是[0,infinity]。
因此,选项D是正确的答案。
A) -(5/8 log(5/8) + 3/8 log(3/8))
B) 5/8 log(5/8) + 3/8 log(3/8)
C) 3/8 log(5/8) + 5/8 log(3/8)
D) 5/8 log(3/8) – 3/8 log(5/8)
解决方案:(A)
熵的公式是
所以答案是A。
A)分类变量的所有类别都不在测试数据集中。
B)与测试数据集相比,类别中的频率分布在训练集中有所不同。
C)训练集和测试集始终具有相同的分布。
D)A和B
E)这些都不是
解决方案:(D)
两者都是正确的,OHE将无法对测试集中存在但不在训练集中的类别进行编码,因此这可能是应用OHE时的主要挑战之一。如果在训练和测试中的频率分布不相同,则选项B中的挑战也确实存在,你在应用OHE时需要更加小心。
A)A
B)B
C)A和B
D)这些都不是
解决方案:(B)
Word2vec算法中使用了两个模型(model1和model2)。model1代表CBOW模型,而Model2代表Skip gram模型。
A) ReLU
B) tanh
C) SIGMOID
D)这些都不是
解决方案:(B)
该函数为tanh,因为此函数的输出范围在(-1,-1)之间。
A)真 B)假
解决方案:(B)
对数损失不能为负值。
Type1被称为误报,Type2被称为漏报。
Type1被称为漏报,Type2被称为误报。
当我们拒绝原假设为空的假设时,就会发生Type1错误。
A)仅1
B)只有2
C)只有3
D)1和2
E)1和3
F)2和3
解决方案:(E)
在统计假设检验中,I型错误是对真实无效假设(“误报”)的错误拒绝,而II型错误则是错误地保留了虚假假设(“漏报”)。
词干提取
删除停顿词
对象标准化
A)1和2
B)1和3
C)2和3
D)1,2和3
解决方案:(D)
词干提取是从单词中去除后缀(“ ing”,“ ly”,“ es”,“ s”等)的基于规则的基本过程。
停顿词是那些与数据上下文无关的词,例如is / am / are。
对象标准化也是预处理文本的好方法之一。
A)X_projected_PCA将在最近邻空间中进行解释。
B)X_projected_tSNE将在最近邻空间中进行解释。
C)两者都将在最近邻空间中进行解释。
D)他们都不会在最近邻空间进行解释。
解决方案:(B)
t-SNE算法考虑最近邻点以减少数据的维数。因此,在使用t-SNE之后,我们可以认为缩小的维数也将在最近邻空间中得到解释。但是对于PCA则不是这样。
下面给出的是两个特征的三个散点图。
A)图片1中的函数
B)图片2中的函数
C)图片3中的函数
D)图片1和2中的函数
E)图片2和3中的函数
F)图片3和1中的函数
解决方案:(D)
在图像1中,特征具有高正相关性,而在图像2中,特征之间具有高负相关性,因此在两个图像中,特征对都是多重共线特征的示例。
删除两个共线变量。
删除两个共线变量中的一个变量。
删除相关变量可能会导致信息丢失。为了保留这些变量,我们可以使用惩罚回归模型,例如岭回归或套索回归。
A)仅1
B)仅2
C)仅3
D)1或3
E)2或3
解决方案:(E)
你不能同时删除这两个特征,因为在删除这两个特征之后,你将丢失所有信息,因此你应该删除仅一个特征,或者可以使用L1和L2等正则化算法。
R平方增加
R平方减少
A)只有1正确
B)只有2正确
C)1或2
D)这些都不是
解决方案:(A)
在特征空间中添加特征后,无论该特征是重要特征还是不重要特征,R平方始终会增加。
现在,你在X的所有值中加了2(即新值变为X + 2),从Y的所有值中减去了2(即新值是Y-2),Z保持不变。(X,Y),(Y,Z)和(X,Z)的新系数分别由D1,D2和D3给出。D1,D2和D3的值与C1,C2和C3有什么关系?
A)D1 = C1,D2 < C2,D3 > C3
B)D1 = C1,D2 > C2,D3 > C3
C)D1 = C1,D2 > C2,D3 < C3
D)D1 = C1,D2 < C2,D3 < C3
E)D1 = C1,D2 = C2,D3 = C3
F)无法确定
解决方案:(E)
如果你在特征中添加或减去一个值,则特征之间的相关性不会改变。
对测试数据进行预测后,你的模型具有99%的准确性。在这种情况下,以下哪一项是正确的?
对于类别不平衡问题,准确性度量不是一个好主意。
精度度量是解决类别不平衡问题的一个好主意。
准确性和召回率指标对于解决类别不平衡问题很有用。
精度和召回率指标不适用于类别不平衡问题。
A)1和3
B)1和4
C)2和3
D)2和4
解决方案:(A)
参考本文中的问题4。
https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/
对于集成模型中使用的弱学习模型,以下哪个陈述是正确的?
他们通常不会过拟合。
他们有很高的偏差,所以不能解决复杂的学习问题
他们通常过拟合。
A)1和2
B)1和3
C)2和3
D)仅1
E)只有2
F)以上都不是
解决方案:(A)
弱学习模型会确定问题的特定部分。因此,他们通常不会过拟合,这意味着学习能力弱的学习模型具有较低的方差和较高的偏差。
K的增加将导致交叉验证结果所需的时间更长。
与较低的K值相比,较高的K值将导致交叉验证结果的置信度较高。
如果K = N,则称为“留一法(交叉验证法)”,其中N是观察数。
A)1和2
B)2和3
C)1和3
D)1,2和3
解决方案:(D)
k值越大,意味着对高估真实预期误差的偏差就越小(因为训练倍数将更接近于总数据集),而运行时间则更长(随着你越来越接近极限情况:留一法交叉验证)。选择k时,我们还需要考虑k倍精度之间的方差。
交叉验证是机器学习中超参数调整的重要步骤。假设你正在通过使用5折交叉验证从基于树的模型的10个不同深度值(值大于2)中选择GBM来调整GBM的超参数“max_depth”。 一个算法(在最大深度为2的模型上)4折的训练时间是10秒,剩下1折的预测时间是2秒。 注意:公式中忽略硬件依赖性。
A)少于100秒
B)100 – 300秒
C)300 – 600秒
D)大于或等于600秒
E)以上都不是
F)无法估算
解决方案:(D)
5折交叉验证中深度“2”的每次迭代将花费10秒进行训练,而测试则需要2秒。
因此,5折将花费12 * 5 = 60秒。由于我们正在搜索10个深度值,因此该算法将花费60 * 10 = 600秒。
但是,在深度大于2的情况下训练和测试模型所花费的时间将比深度为“2”花费更多的时间,因此总体计时将大于600秒。
你想针对最大深度(从给定的10个深度值)和学习率(从给定的5个不同的学习率)中选择正确的值。在这种情况下,以下哪项将代表总时间?
A)1000-1500秒
B)1500-3000秒
C)大于或等于3000秒
D)这些都不是
解决方案:(D)
与问题23相同。
H | TE | VE |
---|---|---|
1个 | 105 | 90 |
2 | 200 | 85 |
3 | 250 | 96 |
4 | 105 | 85 |
5 | 300 | 100 |
你将根据上表选择哪个H值?
解决方案:(D)
根据表格,选择D是最好的
A)将数据转换为均值零
B)将数据转换为中位数零
C)不可能
D)这些都不是
解决方案:(A)
当数据的平均值为零时,向量PCA的预测将与SVD相同,否则,在获取SVD之前必须先将数据居中。
注意:与k相比,n(训练观测值的数量)非常大。
A)真
B)假
解决方案:(A)
第一步,你在黑盒算法中传递了一个观察值(q1),因此该算法将返回最近邻的观察值及其类标签。
在第二步中,你将其从训练数据中选出最接近的观测值,然后再次输入观测值(q1)。黑盒算法将再次返回最近邻观测值及其类标签。
你需要重复此过程k次
J必须是k的适当因子
J > k
不可能
A)1
B)2
C)3
解决方案:(A)
与问题27相同
以下哪项是正确的顺序?
1 < 2 < 3 <4
1 > 2 > 3 > 4
7 < 6 < 5 <4
7 > 6 > 5 > 4
A)1和3
B)2和3
C)1和4
D)2和4
解决方案:(B)
从图像1到4的相关性正在降低(绝对值)。但是从图像4到7,相关性在增加,但其相关性值是负数(例如0,-0.3,-0.7,-0.99)。
如果分类器对错误分类有信心,那么对数损失会对其进行严厉惩罚。
对于特定的观察结果,分类器为正确的类别分配了很小的概率,那么对数损失的相应贡献将非常大。
对数损失越低,模型越好。
A)1和3
B)2和3
C)1和2
D)1,2和3
解决方案:(D)
以下是数据集中给出的五个样本。
注意:图像中各点之间的视觉距离代表实际距离。
A)0
D)0.4
C)0.8
D)1
解决方案:(C)
在“留一法”交叉验证中,我们将选择(n-1)个用于训练的观察值和1个验证观察值。将每个点视为交叉验证点,然后找到该点最近的3个点。
因此,如果你对所有的点重复这个过程,你将得到正确的分类,所有正类在上图中给出,但负类将被错误分类。因此你将得到80%的准确率。
A)1NN
B)3NN
C)4NN
D)都有相同的留一法错误
解决方案:(A)
每个点在1-NN中将始终被错误分类,这意味着你将获得0%的精度。
你正在使用具有L1正则化的逻辑回归。
其中C是正则化参数,w1和w2是x1和x2的系数。
当你将C的值从零增加到非常大的值时,以下哪个选项是正确的?
A)首先w2变为零,然后w1变为零
B)首先w1变为零,然后w2变为零
C)两者同时变为零
D)即使C值很大,两者也不能为零
解决方案:(B)
通过查看图像,我们发现即使仅使用x2,我们也可以有效地执行分类。因此,首先,w1将变为0。随着正则化参数的增加,w2将越来越接近于0。
A)仅1
B)只有2
C)1和2
D)以上都不是
解决方案:(A)
如果此类数据适合深度为4的决策树,则可能会导致数据拟合不足。因此,在拟合不足的情况下,将具有较高的偏差和较低的方差。
A)2和3
B)1和3
C)1和2
D)以上
解决方案:(D)
可以调整所有选项以找到全局最小值。
A)1和3
B)2和4
C)1和4
D)2和3
解决方案:(C)
准确性(正确分类)是(50 + 100)/ 165,几乎等于0.91。
真阳率是你正确预测阳性分类的次数,因此真阳率将为100/105 = 0.95,也称为“敏感度”或“召回率”
A)1和2
B)2和3
C)1和3
D)1、2和3
E)不能判断
解决方案:(E)
对于所有三个选项A,B和C,没有必要增加参数的值来提高性能。例如,如果我们具有非常高的树深度值,则生成的树可能会使数据过拟合,并且不能很好地泛化使用。另一方面,如果我们的值很低,则树可能不足以容纳数据。因此,我们不能肯定地说“越高越好”。
想象一下,你有一个28 * 28的图像,并且在其上运行了3 * 3的卷积神经网络,输入深度为3,输出深度为8。
注意:“步幅”为1,并且你使用的是相同的填充。
A)宽度28,高度28和深度8
B)宽度13,高度13和深度8
C)宽度28,高度13和深度8
D)宽度13,高度28和深度8
解决方案:(A)
计算输出大小的公式是
输出尺寸=(N – F)/ S + 1
其中,N是输入大小,F是过滤器大小,S是跨度。
A)宽度28,高度28和深度8
B)宽度13,高度13和深度8
C)宽度28,高度13和深度8
D)宽度13,高度28和深度8
解决方案:(B)
同上题。
(从左到右为1,2,3,所以C值对于image1为C1,对于image2为C2,对于image3为C3)。
A)C1 = C2 = C3
B)C1 > C2 > C3
C)C1 < C2 < C3
D)这些都不是
解决方案:(C)
误差项的惩罚参数C。它还控制平滑决策边界和正确分类训练点之间的权衡。对于较大的C值,将选择边距较小的超平面进行优化。
“数据科学家进行机器学习的问题有哪些”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!