龙空技术网

如何成为顶级开源项目的贡献者

黑马程序员 65

前言:

而今兄弟们对“the apache”大致比较注意,同学们都想要分析一些“the apache”的相关内容。那么小编同时在网上汇集了一些关于“the apache””的相关资讯,希望兄弟们能喜欢,各位老铁们一起来了解一下吧!

概述

对于程序员来讲,成为顶级开源项目的贡献者是一件有意义的事,当然,这也绝非易事。如果你正从事人工智能有关的工作,那么你一定了解诸如Google Tensorflow,Facebook Pytorch这样的开源项目。下面我们就说一说如何成为这些顶级的开源项目的Contributor。

准备

1.首先你必须成为github的使用者,并已经熟悉了github上托管代码的基本逻辑。

2.对于顶级的开源项目,一般需要你去签署一份Contributor License Agreement(简称CLA),例如Tensorflow项目,个人签署TF individual CLA,公司签署TF corporate CLA,Pytorch中的部分项目则需要签署Facebook CLA,这样你的代码才允许被接收。

3.让你编写的代码风格更规范,一般的开源项目都要求为Google Python Style,即使是Pytorch都是遵循该规范,更不要说Google自家的Tensorflow了。

4.你贡献的代码往往由类或者函数构成(文档贡献除外),因此你需要单元测试程序,它和代码注释一样,是代码共享过程中必不可少的一部分。没有它,即使你的代码正确无误也不会被merge,最终还是会被要求提供单元测试脚本。

5.很多开源项目要求你的每个py脚本都要以许可证书开头,比如Tensorflow,这是它的python许可证书示例: Python license example,当然,这很简单。

# Copyright 2015 The TensorFlow Authors. All Rights Reserved.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the License.# You may obtain a copy of the License at##      Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.# =============================================================================

工具

接下来我们将介绍相关工具的使用,它能够有效的帮助我们来完成贡献前的准备工作,比如:代码规范和单元测试等。

代码规范工具

为了满足代码满足Google Style的要求,我们首先需要一个代码规范检测工具,这里我们使用官方推荐的pylint。

安装:

pip install pylint

使用:

# 使用pylint检测脚本代码,默认将按照PEP8标准# 这里我们需要指定配置文件,即按照Google Style标准# myfile.py代表你写好的python脚本文件pylint --rcfile=pylintrc myfile.py

pylintrc内容请参照: pylintrc

又因为我们初始写的代码往往随意性过强,可能直接用pylint需要修改的地方太多,可能对你幼小的心灵造成重创,因此,这里也带来很多开源项目推荐的另外一款工具:black,它能够直接帮你修改代码中出现的基本问题(仍然存在很多问题无法被判定,需要使用pylint检测)。

安装:

pip install black

使用:

# 这里的-l代表代码的每行最大长度# 默认是88,但是Google Style要求为80# 因此这里指定为80black myfile.py -l 80

代码样式示例:

def my_op(tensor_in, other_tensor_in, my_param, other_param=0.5,          output_collections=(), name=None):  """My operation that adds two tensors with given coefficients.  Args:    tensor_in: `Tensor`, input tensor.    other_tensor_in: `Tensor`, same shape as `tensor_in`, other input tensor.    my_param: `float`, coefficient for `tensor_in`.    other_param: `float`, coefficient for `other_tensor_in`.    output_collections: `tuple` of `string`s, name of the collection to                        collect result of this op.    name: `string`, name of the operation.  Returns:    `Tensor` of same shape as `tensor_in`, sum of input values with coefficients.  Example:    >>> my_op([1., 2.], [3., 4.], my_param=0.5, other_param=0.6,              output_collections=['MY_OPS'], name='add_t1t2')    [2.3, 3.4]  """  with tf.name_scope(name or "my_op"):    tensor_in = tf.convert_to_tensor(tensor_in)    other_tensor_in = tf.convert_to_tensor(other_tensor_in)    result = my_param * tensor_in + other_param * other_tensor_in    tf.add_to_collection(output_collections, result)    return resultoutput = my_op(t1, t2, my_param=0.5, other_param=0.6,               output_collections=['MY_OPS'], name='add_t1t2')

单元测试工具

·单元测试对于团队开发十分重要,是检验代码质量的重要依据,因此你的每一份完整的代码都要配备单元测试脚本。这里我们使用python主流的单元测试工具unittest。

· 安装:

pip install unittest

使用: 这里只去演示核心的使用方法,更具体的内容请参照unittest文档

# 导入unittest工具包import unittest# 我们首先要建立一个测试类,它将包含你所有需要进行测试的函数# 这个类不使用__init__(self),但可以使用setUp(self)来定义公有部分# 它需要继承unittest.TestCase, 类名往往也建议以Test开头class TestStringMethods(unittest.TestCase):    # 类的里面依次是你需要进行测试的函数    # 这些函数建议以test_开头    # 这些函数一般情况不设置参数,而是直接在函数中具体化需要的参数    # 当然你也可以设置原始的参数,然后在外部具体化参数并调用该函数    # 在测试函数中必须存在assert...来断定测试结果    # 常用的assert...包括: assertEqual, assertTrue, assertFalse,    # assertRaises, assertIn, assertNotIn, assertIs, assertIsNot...    def test_upper(self,):        # 使用assertEqual判断两个字符串是否相等        self.assertEqual(            "foo".upper(), "FOO",        )    def test_isupper(self,):        # 使用assertTrue/False断定条件为真/假        self.assertTrue("FOO".isupper())        self.assertFalse("Foo".isupper())    def test_split(self,):        # 设定任意输入        s = "hello world"        # 使用assertIn断定列表包含关系        self.assertIn(            s.split(), [["hello", "world"]],        )        # 注意:这里with self.assertRaises来断定异常        with self.assertRaises(TypeError):            s.split("asd")# 这里是主函数,如果使用python运行该脚本测试,则必须存在# 如果使用pytest(后面会介绍),则可以省略if __name__ == "__main__":    # 使用unittest.main运行所有继承unittest.TestCase的类    unittest.main()

装饰器的使用: unittest最常使用方法之一就是类/函数的装饰器。

# 对于一些特殊需要强制跳过的测试的类/函数使用下方装饰器,但你必须说明原因# @unittest.skip("长得太帅,不需要测试,给我跳过!")# 如果条件为真,则该测试被强制跳过。比如:检测GPU是否可用# @unittest.skipIf(TEST_CUDA, "CUDA available")# 除非条件为真,否则该测试被强制跳过。比如: 检测某些依赖包是否安装# @unittest.skipUnless(has_unittest, "unittest dependencies are not installed")# 函数异常测试的表达方式,函数出现异常则测试通过,比之前说的内部异常粒度更大# @unittest.expectedFailureimport torchtry:    import unittestexcept ImportError:    has_unittest = Falseelse:    has_unittest = Trueif torch.cuda.is_available():    TEST_CUDA = Trueelse:    TEST_CUDA = False# 条件为真,不跳过@unittest.skipUnless(has_unittest, "unittest dependencies are not installed")# 条件为真,跳过;条件为假,不跳过@unittest.skipIf(TEST_CUDA, "CUDA available")class TestStringMethods(unittest.TestCase):    def test_upper(self,):        self.assertEqual(            "foo".upper(), "FOO",        )    @unittest.skip("长得太帅,不需要测试,给我跳过!")    def test_isupper(self,):        self.assertTrue("FOO".isupper())        self.assertFalse("Foo".isupper())    @unittest.expectedFailure    def test_split(self,):        s = "hello world"        self.assertIn(            s.split(), [["hello", "world"]],        )        # 这里预计抛出异常,但实际没有异常,本质上这也算一种异常        # 可以使用@unittest.expectedFailure        with self.assertRaises(TypeError):            s.split("ZMZ")if __name__ == "__main__":    unittest.main()

运行你的测试脚本:

# 建议使用pytest执行测试脚本,你的python中往往自带这个工具包# 这时你不必写下主函数,并且他的输出形式更美观pytest test_myfile.py

输出效果:

======================== test session starts =========================platform linux -- Python 3.7.3, pytest-5.0.1, py-1.8.0, pluggy-0.12.0rootdir: /rootplugins: remotedata-0.3.1, celery-4.3.0, doctestplus-0.3.0, arraydiff-0.3, openfiles-0.3.2collected 3 itemstest_myfile.py sx.                                             [100%]=========== 1 passed, 1 skipped, 1 xfailed in 0.34 seconds ===========

真实单元测试脚本请参考Pytorch Tests和Tensorflow Tests

过程

在准备成为贡献者之前,要确保你已经能够熟练使用该项目。进而明确你要贡献源码的类型,是Fix Bug还是Implement New Feature(实现新特性)。当然,对一个新手贡献者来讲,Fix Bug是你的不二选择。除非你已经通过自己的实践,明确了要做贡献的具体内容,否则,建议你需要遵循以下步骤:

第一步:

从开源项目的Github Issues中寻找open的问题,这里是Tensorflow Issues, Pytorch Issues,仔细阅读大家提出的问题,这将帮你在寻找问题上节约大量时间,同时你可以在讨论区看到有关技术的讨论或已经提交的PR,进一步明确自己是否应该参与该问题的解决。(有很多开源项目的issue会带有"contributions welcome"的标签,可以优先看一看。)

第二步:

当你明确了自己要解决的问题,在正式写代码之前,你需要fork这个开源项目到你自己的Github仓库,然后再将该仓库clone到自己指定的服务器上,这样最后你才可以提交PR。

# 例如:git clone 

到这里你可以通过git remote -v发现我们只与自己远程仓库进行了连接(origin/master)。

此时我们还需要与开源项目的远程仓库建立连接(upstream/master)

# 以tensorflow为例建立连接git remote add upstream  查看到upstreamgit remote -v

然后你就需要建立一个自己的分支,当然,你可以先查看一下远程的分支情况

# 查看远程分支git branch -a# 创建自己的远程分支cnsyncgit checkout -b cnsync

第三步:

通过第二步你已经拿到了项目的源码并创建了自己分支,这时就要开始你的表演,coding + review,你之前准备的代码规范工具和单元测试工具将派上用场。

第四步:

提交代码你的代码并在github中创建一个PR。

# 把内容添加到暂存区git add .# 提交更改的内容git commit -m "添加你的改变说明"# push到自己的远程仓库git push origin cnsync

注意:这里虽然你只push到了自己的远程仓库,但其实你的远程仓库和源项目的仓库是连接的。也就是说,此时你可以通过操作自己的远程仓库决定是否将创建一个源项目的PR(这些过程可以在你刚刚fork的项目页面中实现,包括填写PR的title和comment,有时你也需要在title中添加一个标记,如[Draft]/[WIP]/[RFR]等等)。

第五步:

耐心的等待,如果你是PR是一个Ready For Review的状态,它将很快进入自动化测试的流程以及评委会的介入,不久后你将收到一些反馈,你的代码方案可能被采纳,可能需要更多的修改或测试。

标签: #the apache