为什么说，随波逐流是成为一个数据科学英雄最大的阻碍_

大数据文摘出品

编译：罗然、蒋宝尚

如果你集齐算法，业务，计算机知识这三颗龙珠，那么你就可以召唤一个小一点儿的“神龙”了。

但是想要召唤全能“神龙”，除了技术过硬之外，你还需要过硬的独立思考能力和洞察力。

我们如何才能才能拥有独立思考能力呢？不随波逐流！

有着丰富的数据科学经验的SharpestMinds联合创始人Jeremie Harris将从一个比特币买卖的例子为你讲述：随波逐流为什么是一个数据科学英雄最大的挑战！

下文是作者第一人称叙述，enjoy

流行有可能是炒作或者泡沫

我还记得我的兄弟决定出售他的比特币的那一刻。那是2017年，我们在星巴克。一位阿姨正在接近我们，她向我们赠送了一本小册子。在这些册子的顶部用粗体字写着：“BITCOIN：提前退休之路”。

我很好奇，所以我询问她对加密货币市场的看法，但事实证明她除了比特币之外不知道其他加密货币。

以太坊?

“从来没有听说过。”

莱特币?

“这是比特币的廉价版本，对吧？”

现在，有这么一条经验法则，如果当普通阿姨向你展示最新的科技潮流，那么你可能正在陷入最火热的炒作之中。或者，如果深入思考的话，其中还有“泡沫”。

当然，这不是一个新的发现。每个人都有这样的共识:在投资方面，如果你正在做其他人正在做的事情，你不可能得到任何回报。

但奇怪的是，人们在投资自己时却没有这样的意识。

假设你想成为一名数据科学家。如果你正在做所有标准的“我想成为一名数据科学家”的事情，那么这意味着你得不到梦寐以求的工作。

市场目前充满了初级人才，因此，有抱负的新手不太可能获得高质量的岗位。所以，如果你想变得更优秀，为什么要做别人正在做的事情呢？

巧合使你做了同样的事情

这不是巧合

问题是，大多数人在开始他们的数据科学旅行时都不这么想。我在SharpestMinds（工作已经和数百名有抱负的数据科学家进行了交谈，其中大约80%的人有相同的故事：

1、首先，他们都是按照这条线路学习（Python + sklearn + Pandas + SQL等等）。

2、然后在慕课上找学习资源。

3、读了一些工作要求的描述，并担心着自己没有这个能力。

4、也许换一个慕课继续听课，也许开始通过求职网站申请工作。

5、没有收到求职回馈（最好的情况也只是有屈指可数的面试）

6、感到沮丧，考虑读硕士，申请更多的工作。

7、得出一个起决定作用的点：重复上述第2条到第7条，直到奇迹出现？

如果这种情况发生在你身上，那么你也可能处于一个自我改善的泡沫中：你正在做其他人正在做的事情，但如果期待和别人不一样。你需要做的第一件事就是停下来。

如果你想要高于平均水平，你就不能做平均水平所做的事情。所以为了避免做平均水平的事情，你需要知道平均水平是什么。

以下是一些例子：如果你需要慕课来学习所需知识，那很好。但是不要陷入慕课的螺旋中：慕课几乎是为普通人设计的，所以就算通过大量学习，你也不能成为一个出色的数据科学工作的候选人。同样地，如果你的GitHub上有4或5款Jupyter笔记本，上面有相同的无聊的sk./Pandas/sea./Keras堆栈，不要再重设计一份。

总的来说，规则是：如果事情的下一步非常明显，那么停下吧，因为其他人都在这样做，那是性价比非常低的事情。相反，你需要找到其他人没有做过的事情，并尽快做好这些事情。

我就是我，不一样的烟火

这些异于常人做法的思路是什么?基于我所了解到的，大概有5个:

1.复现论文。如果你是一个深度学习爱好者，这一步是必须要做的。人们通常不这样做是因为它比抓取数据集并使用简单的ANN或XGBoost进行千篇一律的分类更难。在arXiv上找到与你的领域相关的最有趣的论文（理想情况下是一篇相对较新的论文）阅读它并理解它。然后在新数据集上复现它，写一篇关于它的博客文章。

2.别在舒适区域懒惰下来。如果你开始一个新项目，最好是学习一些新的框架/库/工具。如果你正在构建以df = pd.read_csv（文件名）开头并以f1 = f1_score（y_true，y_pred）结尾的第6个Jupyter笔记本，那么就该改变你的策略了。

3.做点无聊的事情。其他人没有这样做，因为没有人喜欢无聊的事情。但是学习一个合适的Git流程，如何使用Docker，如何使用Flask构建应用程序，以及如何在AWS或Google Cloud上部署模型，这些都是公司迫切希望申请人拥有的技能。

4.做让人感到厌烦的事。1、提议在当地数据科学会议上发表论文。或者，至少参加当地的数据科学会议。2、向LinkedIn上的人发送建议讯息。尽量提供价值（比如“我刚注意到你网站上的拼写错误”）。然后让你的问题尽可能具体（“我很想在我的博客文章中得到你的反馈”）。3、参加大型会议并构建社交网络。4、开始一个研究组。

5.做一些看似疯狂的事情。每个人都使用UCI存储库，或使用一些库存数据集来构建他们的项目。不要那样做，了解如何使用Web抓取库或一些不受重视的API来构建自定义数据集。数据很难获得，公司通常需要依靠他们的工程师为他们提供数据。你应该以作为数据科学痴迷的疯子为目标。

这些步骤中的每一条都是能够使面试官眼前一亮。虽然，它们都不是具有驱魔功效的武器的银色子弹，但它们确实有助于你在数据科学就业市场上获得更大的吸引力，并成为一个更有能力的数据科学家。

在一天结束时，请记住，当你痛苦的学习技能时，你就是在为自己投资。这意味着所有适用于投资的经济原则都适用于此：如果你想要一个出色的结果，你必须做出杰出的事情。