西门子S7-200模块CPU224XPCN中央控制单元
整合了比较模型和人脑之间估算性能的证据,并指出它们大体上是可以比较的[5]。有趣的是,系统性评审(以及Kitchenham等人实施的对系统性评审的第三方评审)暴露了证据基础中的引人注意的弱点[7]。软件工程中的大部分话题几乎没有可信的证据。对发布证据质量的担忧使努力得不到回报。对汇报证据质量的担忧(如,是否充分并准确地描述了方法)限制了证据的评估。
然而,系统性评审不是验证研究结果的*终判定。它们的弱点之一是这种集合研究的方式使之很难对研究背景有适当的关注,而这在验证和应用研究时的重要性是被普遍公认的。可能产生的后果是,系统性评审很难处理定性研究,也因此经常把它们排除在评审之外,从而也排除了它们所提供的证据。另一个后果是,把不同背景的研究结果放在一起时(如,学生的实践和专业人员的实践),如果把它们的背景看成等同的话,就会有过度普遍化的危险。
方法论,包含方法的标准应用的统一调查系统,提供了让研究员比较和对比结果的有利条件,因此,证据能够随着时间而积累,稳定可靠的证据能为知识提供有力的基础。像化学这样的学科,特别是有详细说明的关注点和标准的问题形式的子学科,有定义完备的方法论。它们也可能有标准的汇报实践,通过标准的汇报形式来强制标准的方法论。即使是高质量的证据也通常是片面的。我们常常不能直接评估一个现象,所以我们只能研究那些我们能直接研究的结果,或者只观注现象的一部分,或者从特定的角度观注它,又或者我们只观注那些我们能度量的东西,并希望它能映射到我们真正关心的东西上。度量是一种速记,是对现象的简洁表达或反映。但
不是现象本身;度量是一种有代表性的简化。高可信度需要证明所做选择的合理性。
更糟糕的是,证据是会有偏见的。多少软件工程师会相信那些老套的清洁剂广告中的消费者实验和“盲测”(“Duz能清洁更多碗盘……”)?广告法规要求这种消费者实验必须遵循一定的标准使条件具备可比性:同样的污垢、同样的用水量、等量的清洁剂等。但是广告商可以任意制定条件。他们可以优化一些条件,如污垢的种类和适于产品的水温。“哈!”我们会说,“偏见是与生俱来的。”而许多发表的软件工程方法和工具评估仍然遵循了同样的模式:无论是有意的还是无意的,评估的背景是有所设计的,以证明所推销的方法或工具的优点,而不是基于独立定义的有根据的标准,公平地与其他工具和方法做比较。
当证据悄悄地被玷污和妥协时,偏见就产生了。这是因为之前没有考虑到的因素导致了结果扭曲,这样的因素包括如其他影响、合并变量、不适当的度量、或者对样本的选择不具代表性。偏见会对研究的有效性产生威胁,所以当我们在评估可信度的时候会寻找可能存在的偏见。
我们不只需要理解特定证据的价值和局限性,也要了解不同形式的证据如何比较,以及他们如何能相互组合来补偿各自的局限性。既然实验和调查有局限性,而且我们对基于现实世界经验的评估感兴趣,也许仔细深入地观察一到两个实施案例会提供我们做决定所需要的信息,或者至少把我们的注意力聚焦在我们先需要回答的问题上。引人的结果,如果它是通过盯着水晶球看出来的,那也不会有可信度。以下的研究结果一定很吸引人:“600人参与的实证研究显示Java在各个方面都比C++好:编程时间缩短了11%,调试时间缩短了47%,长期设计稳定度提高了42%。只有在运行性能上,C++仍高出Java 23%。”
但如果你知道这些结果是通过问卷调查而得出的话,那可信度就大
浔之漫智控技术(上海)有限公司(w)是中国西门子的合作伙伴,公司主要从事工业自动化产品的集成,销售和维修,是全国的自动化设备公司。公司坐落于中国城市上海市,我们真诚的希望在器件的销售和工程项目承接、系统开发上能和贵司开展多方面合作。以下是我司主要代理西门子产品,欢迎您来电来函咨询,我们将为您提供优惠的价格及快捷细致的服务!
扣了。如果你仔细查看问题的话,可信度会继续降低:他们是如何在程序完全不同的情况下比较编程和调试时间的?哦,他们问了任务完成的时间比预期时间长的频率!那“长期设计稳定度”是什么?哦,他们问了方法中有多少部分是从来不变的!问题都出在细节上:方法、样本、数据、分析。
粗略的凭经验来说,你可以完全忽略那些没有描述设置的研究,对那些设置的描述使你产生好奇疑问的研究,你也要保持怀疑的态度:这是哪个类型的研究?研究对象着手于哪些任务?在哪种工作环境下?研究对象是谁?数据是如何收集的?数据是如何验证的?主要的度量定义到何种精度?一份**的实证研究报告能令人满意地回答所有这些问题。有意义并能让人理解的数据呈现
当你知道研究是如何构造的、数据是如何收集的时候,你需要进一步了解关于数据本身的信息。研究报告可能没有空间来发布原始数据,所以,即使是很小的研究也会通过统计学家所说的描述统计学来总结数据。级别、p值、自由度、剩余平方和、M参数、Σ、θ、β系数、ρ、τ等所有一切。这只是为了告诉你:“如果你敢质疑我的观点,我就会用我的显著性测试来砸你的脑袋。”可信的研究使用统计数据来解释和确保结果,差的研究使用它们来混淆视听(因为作者需要隐藏弱点)或恫吓他人(因为作者自己不能确定这些统计戏法的意义)。
在好的研究中,作者会用简单的语言解释他们所使用的每个统计推论。他们更喜欢使用易于理解的推论(如置信区间)而不是难以解释的推论(如p值和效能,用标准差归一的效应量)。他们会清晰地用如下语句解读每个结果:“这里也许有一些真正的差异”(正面结果),“这里似乎没有影响,或者只有很少的影响;我们看到的大部分是随机