当前位置：首页 > 数码 > 正文内容

员工写了个比删库更可怕的Bug！ (员工写了个比喻句)

admin2年前 (2024-04-15)数码380

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的Bug！给大家分享一下（不是公开处刑），希望朋友们引以为戒。

一、Bug起因

事情是这样的，昨天中午11点左右，突然用户群里的小伙伴反馈：自己直接成为了鱼聪明网站的管理员！接下来，陆续有更多同学反馈：大家都成管理员了！

看到这里，我立刻就去查了下数据库，结果看到的是：


update user set userRole=admin

好家伙，早起脑供血不足的我立刻高血压上来了，怎么所有的用户都变成管理员了？！我赶紧问下我所有的员工，这特么是谁干的！！！

然后员工小A大叫：我X，是我今天执行单元测试更新数据的时候，少加了个where条件！

本来的预期：


update user set userRole=admin where id=1

实际上执行：


update user set userRole=admin

于是导致整个库里的所有用户都变成了管理员，大家可以愉快地薅鱼毛了。

二、紧急处理

后来据这位写Bug的同学的回忆，由于她之前没有遇到过类似的情况，第一时间脑袋是一片空白、头嗡嗡的，完全不知道接下来要怎么做。

不过我是很冷静的，因为之前在公司处理过类似的情况，毕竟曾经凌晨4-5点的时候都被叫起来过。。。

所以立刻就给他发了一段处理方式：

解释一下，就跟我们在路上看到一起交通事故一样，第一时间要么是保护现场，放一个小牌牌不让大家进到事故发生地；要么就是防止扩大影响，人工疏导不让更多人围观、阻塞交通。一般这两件事情是同时执行的，由于我知道怎么能够判定哪些用户本来是VIP（比如通过VIP信息）、而且程序又有详细的日志，所以第一时间是让员工先把user表的所有角色设置为普通用户权限，防止有人继续利用管理员权限去做一些不好的事情。

接下来就是立刻停止了线上的前后端服务，一方面是为了后面好恢复数据，另外也是防止一些同学发现自己突然从会员变成了普通用户，增加大量的人工咨询成本。

所以当时很多同学访问鱼聪明时，看到了这样的截图：

稳定现场后，接下来就是想办法恢复数据到正常的状态，好在我给数据库设置了分钟级别的备份，可以直接把数据恢复到事故发生前的最近正常的时间点。

有了备份后的老数据，还要考虑恢复这个时间点后新增的用户数据。有很多种恢复策略，我优先选择了逻辑最简单的策略：直接更新用户updateTime>2023-07-20 10:00:00的数据，根据id点对点覆盖除了userRole之外的数据列；如果没有对应的id，新增一条数据。

也就是使用类似saveOrUpdate的方法。理想很丰满，现实很残酷。万万没想到，由于updateTime是一个发生数据修改时自动更新的字段，导致所有的数据updateTime全是最新的，相当于要把数据库全量的数据都去比较一遍。

于是我的员工呢，写了类似下面这样的程序：


List<User> userList = userService.list();
List<UserBak> userBakList = userList.stream().map(user -> {
  user.setUserRole(null);
  UserBak userBak = newUserBak();
  BeanUtils.copyProperties(user, userBak);
  return userBak;
}).collect(Collectors.toList());

然后就开始执行了，结果执行了很久很久，数据都没更新完。看来单线程还是太慢了，于是我用并发编程的方式改进了同步的过程。先把所有用户分组，然后多线程同时执行saveOrUpdateBatch方法。示例代码如下：


void restoreUserTable() {
  List<User> userList = userService.list();
  List<UserBak> userBakList = userList.stream().map(user -> {
    user.setUserRole(null);
    UserBak userBak = newUserBak();
    BeanUtils.copyProperties(user, userBak);
    return userBak;
  }).collect(Collectors.toList());

  int batchSize = 1000; // 使用lambda表达式将userList每1000条数据分为一组
  List<List<UserBak>> userBakGroupList = Lists.partition(userBakList, batchSize);

  List<CompletableFuture<Void>> futures = new ArrayList<>();
  for (List<UserBak> userBakGroup : userBakGroupList) {
    futures.add(CompletableFuture.runAsync(() -> {
      userBakService.saveOrUpdateBatch(userBakGroup);
    }));
  }

  CompletableFuture.allOf(futures.toArray(new CompletableFuture[0])).join();
}

这次执行速度快了很多，很快就同步完了数据。

三、后续处理

数据恢复正常后，为了防止类似的事情再次发生，我们做了以下几件事：

修改了单元测试代码，添加了where条件。
对数据库的所有表添加了外键约束。
对数据库的所有写操作都增加了日志记录。
制定了数据恢复预案。
加强了员工的培训和教育。

希望通过这些措施，能够避免类似的事件再次发生。

四、总结

这是一次非常严重的Bug，给我们带来了很大的损失。但也让我们吸取了教训，学到了很多东西。希望大家引以为戒，加强自己的代码审查和测试，避免类似的事件发生。

最后，感谢我们的员工小A，虽然这次写了一个大Bug，但是她能及时发现并向我汇报，而不是隐瞒错误，这是非常值得表扬的。只有勇于承认错误，我们才能不断进步。

领导说，个人写的代码超过8个bug就要开除，是否太严格了?

这确实是太严格了，这样可能会导致员工消极怠工，员工都把时间精力用在检查是否有bug上面了，这样员工一天写的代码估计都没有多少。其实可以奖励buy数最少、写代码最多的员工，把奖品设置地足够诱人，大家为了得到奖品，写得多同时出的错也少，这比开除员工显得更加人性化了。

曾经有一个研发部门有好几个项目组，加起来总共几百名程序员，领导想要考核他们的绩效。领导觉得他们上班太懒散了，还老是迟到，上班的时候一直对着电脑，但是别人又不知道他们做的怎么样，所以才要对他们进行考核。考核需要有一个标准，领导一开始设定代码行数为标准，代码行数越多绩效越高，程序员十分机智，打了很多空行滥竽充数，这样行数就提升上来了。

最后被发现了，领导禁止利用空行，但是程序员总有别的方法来应对老板的考核，总之就是各种滥竽充数，最后写出来的代码并不会增多。后来领导直接大手一挥，说程序员写的代码超过8个bug就要被开除，这可让程序员难办了。他们为了不出bug，一个月只写了几个代码而已，老板差点没被气出内伤。

所以个人写的代码超过8个bug就要开除这种方法其实是不可行的，这样无异于阻碍公司的发展。领导想要程序员有质有量的完成任务，还是要想出别的对策。

我想弄出个删除员工号的结果，遇到了点bug

！ 1．记得有这么个缺陷，以后再遇到的时候可能就会了解发生的原因。 2．尽力去查找出错的原因，比如有什么特别的操作，或者一些操作环境等。 3．程序员对程序比测试人员熟悉的多，也许你提交了，即使无法重现，程序员也会了解问题所在。 4．无法重现的问题再次出现后，可以直接叫程序员来看看问题。 5．对于测试人员来说，没有操作错误这条.既然遇到，就是问题。即使真的操作错了，也要推到程序员那里，既然测试人员犯错误，用户也可能会犯同样的错误。错误发生的时候， Tester 最大。二、程序不是测试人员写的，出问题也不是测试人员的原因。至于无法重现，可能的原因很多，因为测试人员看到的只是程序的外部，无法深入程序内部，所以把责任推给测试人员是不对的。测试人员的任务只是尽力重现问题，而不是必须重现！！三、下次再遇到的时候，拉他们来看就可以了。因为问题如果无论如何无法重现，程序员确实也没有什么好的解决方法。而且此类问题即使程序员说修改了，测试员也没有好的方法去验证是不是。四、你可以告诉程序员，测试过程是没有错误的。测试人员只是检查程序中可能存在的问题，虽然测试人员使用一定的手段方法努力去覆盖所有的情况，但这些都是理论的推测。在实际中，可能因为人员、环境、配置等种种原因出现各种各样的问题，在测试人员这里发现问题是公司内部的事情，程序发到外面可就是公司的形象问题了。需要让程序员理解，测试人员是帮助他们的，不是害他们的。客户那里发现问题比测试员发现问题结果要严重的多。五、测试部门是独立于开发部门的呀，真的打交道，也是经理对经理。在我们这里，工作上面的事情，和程序员相互只能商议解决，并没有谁高谁低。问题无法重现，也要提出，程序员那里可以回复无法再现。问题放在那里，等到再次出现的时候，就立刻叫程序员过来查看。实在没有再次出现，最后可以写到报告中，说出现了什么现象，但无法再现（比较严重的问题才如此处理，小问题经理之间商量商量可能就算了）。至于测试人员必须重现bug，你杀了我好了，我每次测试项目都有无法重现的问题，很多我能找到大概的原因，有些根本无法重现（仅仅出现一次）。这种事情是无法避免的，并不能说测试人员无法重现问题，就是工作不到位（哼，程序有 bug，是否可以说程序员工作不到位的呀）。六、测试部门要独立，最好不受开发的制约。其实真正要重视，就应该有否决的权利。我们公司就是项目承包，要拿最后的项目尾款，就要测试部签字通过，这样就避免了很多的问题。其实只要自己尽到心就可以了，管别人怎么说呢。七、我们使用的状态有：程序员处理的状态（由测试员提交的Action）：等待处理的，再次出现的。测试员处理的状态（由程序员提交的 Action）：已经修改的，暂不修改的，系统限制的，使用错误的，无法再现的。测试员可以修改记录。经理处理的状态（由测试员提交Action）：管理员处理的。经理还可以删除记录。按照比较标准的说法，其实对于缺陷还应该有“等待确认的”、“已经确认的”和“重复提交的”的状态，我们为了省事，统一使用了“等待处理的”。最后结项的时候，缺陷的状态对我们来说有两种，“已经关闭的”（由测试员或经理确认）和“暂不修改的”（比如下一个版本处理等）。呵呵，状态多，有些烦琐，特别是程序员很多的时候都不清楚应该回复什么状态，但我个人觉得对测试人员来说，这些状态比较清晰明了，容易处理。八、一个叫 doer_ljy(可战)的网友回复了一些内容，我个人认为不很妥当，就回复了一些内容，绿颜色的是doer_ljy(可战)的内容：关于“无法重现”我看是有这么个问题存在。首先如果你在测试之前有严格的测试计划，就很难出现“无法重现”这种现象。 “无法重现”的意思是不知道怎么操作才能再次看见这个BUG。那么这个BUG 多半是“计划外”的。不清楚你是否是测试人员。 “计划外”这个词，对测试员来说应该不存在。测试用例的粒度一直是个在讨论中的问题，测试人员很难有时间和精力写出包含内容、数据、步骤等等全部操作一切的测试用例（说白了，只要一个长手识字的人，按照测试单做，就能发现所有的问题，呵呵，有软件蓝领的感觉了）。即使真的有，意义也不大，测试很多的时候，是发散性的思维，带点创造性，想事先考虑完全，很难。所以更多时候，是在测试过程中逐步对用例等进行完善，所以说“计划外”最好不要提。说说我现在测试的一个项目，有一个业务，首先查询出人员，有个“全选”按钮，“全选”后，再用鼠标一个一个取消选择，这个时候进行业务办理的时候，就会提示“没有选择人员”，至今为止一切都正常，但是这个时候再次点选人员进行业务处理，仍然会提示“没有选择人员”，这就是一个缺陷了。这个问题我想一般人都不会在测试用例中考虑到吧，因为发生的条件很苛刻：不用“全选”按钮的时候不会发生；全选后点击“取消全选”按钮再办理业务不会发生；全选全消后，先点击人员再办理业务也不会发生。其次，成熟的测试人员即使无法再现 BUG，也能准确的描述出 BUG 发生之前几个步骤的操作方法，测试用例情况。这些对开发人员分析BUG 原因很重要。所谓的BUG 发现环境。呵呵，看来我不是成熟的测试人员。手工测试，比较熟练的时候，和打字可以说差不多，应该进行到哪里，心中是有数的，但让我完全从头到尾的重复，不容易呀。写测试缺陷报告单的时候，也只是说明操作步骤和发生的现象。其实无法重现的问题，既然说“无法重现”，也就是测试人员已经对这个现象进行了多次的验证，一般从程序外部来说，测试人员的操作比程序员要熟练的。最后，我不同意测试人员不假思索把发现的“问题”直接推给编码人员的做法。毕竟是大家合作，目标是一致的。测试人员总是处在 BUG 发生的第一现场，应该帮助分析出现问题的原因。确认是不是自己的此时Miss. 测试人员提交任何一个问题，都会经过反复的验证，如果容易重现，早就提出来了。绝对不是在推脱责任，还是那句话，对程序的结构，做的人当然比不做的人要清楚。另外，除非程序员询问，否则我不会给程序员提出修改分析和建议！！测试人员的任务是发现问题，解决问题是程序员的事情。这么做可能会影响程序员思考问题的思路；而且测试人员做的多了，程序员不但不感激，可能反而会反感（好像程序员对测试人员有好印象的不多）。再说两个我这两天遇到的问题。第一个就是我们的程序有一个锁定数据的功能。锁定后，在其它的业务，此数据将不能再使用。我当时发现这个功能无效，而且经过了几次的验证都不行，我当然就提出了。但是程序员那里说此功能好使，我再验证的时候，就没有问题了，这个问题当时可以重现（但是我不可能遇到问题就拉程序员来看吧），后来却没有了，只能放在那里，最后关闭掉。第二个就是在一个界面中，录入有顺序要求，必须先选择一个ListBox （必填）再进行Edit 的录入，但一次操作我没有选择 ListBox 就录入的Edit，也正常保存了。后来无论我怎么操作此问题都没有出现（不够成熟呀），我就放弃了，也没有提交记录（为了避免麻烦）。测试人员的时间是有限的，进度给的都很少，一般连用例都没有时间写，还要去花很多时间验证“无法重现”的问题？反正 10 分钟如果试验不出来，我就会放弃。严重的就提交，不影响的就当不知道。下面是其它一些人的观点： doublefalse(散诸怀抱)：如果不能重现的 bug 确实比较麻烦，但最好在测试过程中注意干净环境、正确的操作、相同的数据源，只要真的有问题，一定能否复现的。呵呵，多试试！！！我们以前一直有客户反映入库的数据经常有无关数据，但在家里测试没有问题，后来才发现是汉字编码错位，这样同样的字，错位后就变成另外的东西了。 liuxiaoyuzhou(蟀哥)：遇到过同样的问题!主要是记住BUG 出现的环境!测试的时候这是关键! 在我们这里不能重现的BUG,是测试人员的工作不到位!我们这里程序员比测试人员说话有力度!郁闷呀! ericzhangali(另一个空间)：首先一定要提交bug；其次不要企图RD 一定去解这个bug；某些时候还得关闭这个bug。如果RD 认为是测试错误，（不明白什么叫测试错误，是不是说他从测时要告诉你千万不要怎么怎么做，否则后果自负啊，）那也没什么办法，如果沟通解决不了，爱咋认为就咋认为吧。 darkcat_c(错了重来)：没有 bug 是不可以重现的，bug 本事是建立在标准的规程上所出现的异常，如果你按test case 步骤做的话不太可能出现此类bug。作为测试人员一定要具备良好的记忆能力，一旦出现一些不知如何产生的bug，至少你要知道刚才你大致进行了那些操作。良好的分析能力，尽管你只是测试，但你应该全面的了解程序的架构，和一些重要的内部细节，不然你这个测试就是不合格的。定位bug 是开发的事情，而重现一个bug 是测试的本职工作，不要把所有的事情推给开发，不然你的确比开发要低一等。（编者按：这种话，不愿意去辩驳，标准开发人员的看法，也许应该让他们也来做做测试） liyan_1014(雁子)：我觉得应该是这么处理： 1、一定提交bug，必须由负责bug 的tester 详细描述测试操作步骤，bug 发生的症状，并将 bug 发生的具体环境也描述清楚；这样对于再次重现也有一定的参考性。 2、测试和开发之间是需要良好沟通的，如果得到的回复是操作错误，那么请开发人员解释，为什么会允许存在操作错误，一般来说，对于错误控制，开发那边应该能很好的把握。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: Bug