分类目录归档：技术

什么是 CLR ？

作者：By Vance Morrison – 2007
原文链接：https://github.com/dotnet/coreclr/blob/master/Documentation/botr/intro-to-clr.md
翻译：dontpanic

什么是公共语言运行时（Common Language Runtime, CLR）？简单来说就是：

公共语言运行时（CLR）是一套完整的、高级的虚拟机，它被设计为用来支持不同的编程语言，并支持它们之间的互操作。

啊，有点绕口，同时也不太直观。不过这样的表述还是 有用的 ，它把 CLR 的特性用一种易于理解的方式分了类。由于 CLR 实在太过庞大和复杂，这是我们理解它的第一步——犹如从万米高空俯视它，我们可以了解到 CLR 的整体目标；而在这之后，我们就可以带着这种全局观念，更好地详细了解各个子模块。

CLR：一个（很少见的）完备的编程平台

每一个程序都有大量的运行时依赖。当然，一个程序需要由某种特定的编程语言编写而成，不过这只是程序员把想法变成现实的第一步。所有有意义的程序，都免不了需要与一些 运行时库 打交道，以便能够操作机器的其他资源（比如用户输入、磁盘文件、网络通讯，等等）。程序代码还需要某种变换（翻译或编译）才能够被硬件直接执行。这些依赖实在是太多了，不仅种类繁多还互相纠缠，因此编程语言的实现者通常都把这些问题交由其他标准来指定。例如，C++ 语言并没有制定一种 “C++可执行程序” 格式；相反，每个 C++ 编译器都会与特定的硬件架构（例如 x86）以及特定的操作系统（例如 Windows、Linux 或 macOS）绑定，它们会对可执行文件的格式进行描述，并规定要如何加载这些程序。因此，程序员们并不会搞出一个 “C++可执行文件”，而是 “Windows X86 可执行程序” 或 “Power PC Mac OS 可执行程序”。

通常来说，直接使用现有的硬件和操作系统标准是件好事，但它同样也会把语言规范与现有标准的抽象层次紧密捆绑起来。例如，常见的操作系统并没有支持垃圾回收的堆内存，因此我们就无法用现有的标准来描述一种能够利用垃圾回收优势的接口（例如，把一堆字符串传来传去而不用担心谁来删除它们）。同样，典型的可执行文件格式只提供了运行一个程序所需要的信息，但并没有提供足够的信息能让编译器把其他的二进制文件与这个可执行文件绑定。举例来说，C++ 程序通常都会使用标准库（在 Windows 上叫做 msvcrt.dll），它包含了大多数常用的功能（例如 printf），但只有这一个库文件是不行的。程序员如果想使用这个库，必须还要有与它相匹配的头文件（例如 stdio.h）才可以。由此可见，现有的可执行文件格式标准无法同时做到：1、满足运行程序的需求；2、提供使程序完整所必须的其他信息或二进制文件。

CLR 能够解决这些问题，因为它制定了一套非常完整的规范（已被 ECMA 标准化）。这套规范描述了一个程序的完整生命周期中所需要的所有细节，从构建、绑定一直到部署和执行。例如，CLR 制订了：

一个支持 GC 的虚拟机，它拥有自己的指令集（叫做公共中间语言，Common Intermediate Langauge），用来描述程序所能执行的基本操作。这意味着 CLR 并不依赖于某种特定类型的 CPU。
一种丰富的元数据表示，用来描述一个程序的声明（例如类型、字段、方法等等）。因此编译器能够利用这些信息来生成其他程序，它们能够从“外面”调用这段程序提供的功能。
一种文件格式，它指定了文件中各个字节所表达的意含义。因此你可以说，一个 “CLR EXE”并没有与某个特定的操作系统或计算机硬件相捆绑。
已加载程序的生命周期语义，即一种 “CLR EXE 引用其他 CLR EXE” 的机制。同时还制订了一些规则，指定了运行时要如何在执行阶段查找并引用其他文件。
一套类库，它们能够利用 CLR 所支持的功能（例如垃圾回收、异常以及泛型）来向程序提供一些基本功能（例如整型、字符串、数组、列表和字典），同时也提供了一些与操作系统有关的功能（例如文件、网络、用户交互）。

继续阅读 →

长模式与 16 位程序

发表评论

这是我在知乎的回答：https://www.zhihu.com/question/310785889/answer/58670983

首先我们要把 16 位程序分成两类来看：跑在实模式下的 16 位程序和跑在保护模式下的 16 位程序。长模式是支持兼容 16 位的保护模式的（x86-64 白皮书）：

但由于在长模式下移除了虚拟 8086 模式，无法运行实模式的（直接访问硬件的）16位程序。

至于为什么移除了虚拟 8086 模式，只能认为是不想再多背包袱了。已经有的包袱甩不掉，但至少别给自己再找新麻烦…

其实 Intel 在 80286 添加保护模式时就不想带这个包袱了，它没有提供直接的方法从保护模式转换回实模式（即无法支持实模式 16 位程序）。也许是大家怨声载道，而后在 386 中 Intel 添加了虚拟 8086 模式，允许直接在保护模式下虚拟一个实模式出来。这样在 32 位操作系统中，实模式的 16 位程序才能运行。所以到了 64 位，这样的包袱不再扔一次怎么行呢，实在不行再把它加回来就好了，毕竟这事 Intel 已经干过一回了 🤣

总而言之，长模式是可以运行 16 位程序的，但只兼容保护模式。不过 Windows 也无法运行 16 位保护模式下的程序，这是 Windows 本身不再支持了的原因，不是长模式的限制。

错误模型 – The Error Model

发表评论

原文链接：http://joeduffyblog.com/2016/02/07/the-error-model/
作者：Joe Duffy
翻译：dontpanic

译注：下文中所有的“我”、“我们”均指代原作者 Joe Duffy 或其所在团队。作者总结了目前主流编程语言中常见的错误模型的优缺点，同时分别给出了自己的针对不可恢复错误（Unrecoverable Error）和可恢复错误（Recoverable Error）的处理方案。由于本文有一些惯用语和专业词语，受限于我的水平，可能出现翻译错误、或措辞与主流方案不同等问题，欢迎指出以便修正。本文较长，请做好长时间阅读的准备。

译注：前情提要：原作者 Joe Duffy 曾在微软参与开发一款操作系统 Midori，这是一款研究型/孵化型项目。这款操作系统主要由一种 C# 的变种语言（有人称作 M# 语言）编写。

The Error Model

Midori 使用了一种基于 C# 的、支持 AOT 编译、类型安全的语言。除了我们的微内核，整个系统都是使用这种语言编写的，包括驱动程序、域内核（Domain Kernel），以及全部的用户代码。我在这段时间里收获了很多，现在是时候总结一下了。整个语言涵盖的东西太多了，我会分成几篇文章来阐述，就先从错误模型开始。错误（Errors）的传递与处理在任何编程语言中都是非常基础的部分，而对于用来编写高可靠操作系统的语言来说更是如此。就像 Midori 项目的其他部分一样，任何修改一部分都应该从全局的角度来考量，并进行不断地迭代。我经常从原来的同事那里听到说，错误模型是他们在 Midori 上开发程序时最怀念的部分。我也很怀念这部分。那么废话少说，我们这就开始。

错误模型简介

错误模型需要回答的最基本的问题是：“错误”应该如何传达给程序员和用户？这问题似乎很简单。

要回答这个问题，最大的阻碍之一是：如何定义什么是“错误”。很多语言把 Bug 和可恢复错误归为一类，用同样的机制来处理，比如把空指针引用错误、数组访问越界错误与网络连接错误、语法分析错误混为一谈。这种一致性初看起来很美好，但它有着深层次的问题——这种一致性会造成很大误解，并且通常会导致程序员写出不可靠的代码。

总的来说，我们的解决方法是同时提供两套错误模型。一方面，对于程序的 Bug，我们提供了快速失败（Fail-Fast）模型，在 Midori 中我们称其为放弃（Abandonment）；另一方面，对于可恢复的错误，我们也提供了静态受检查异常（Statically Checked Exception）。这两种错误模型从编程模式到背后的机制都截然不同。放弃会无条件地立即终止整个进程，不会再运行任何用户代码（需要说明的是：一个典型的 Midori 程序会由很多个小的、轻量级的进程组成）；异常则允许恢复用户代码的执行，在这个过程中类型系统会起到重要的检查和验证的作用。

我们的旅程漫长而曲折。为了讲好这段故事，这篇文章分为以下6个主要部分：

野心和经验
Bugs 不是可恢复错误！
可靠性、容错性和隔离性
Bugs：放弃（Abandonment）、断言（Assertions）和合约（Contracts）
可恢复错误：类型导向的异常
回顾与总结

现在看来，有些结论似乎很明显，尤其是在更现代的系统语言
（比如 Go 和 Rust）出现之后。但是一些结论还是让我们很惊讶。我会尽量省略废话，但也会提供足够的背景故事。我们走过很多弯路，但我觉得这些弯路甚至要比最终的结论更有趣。

继续阅读 →

WebApp for Desktop: 请不要滥用手型指针

发表评论

这是一篇吐槽。最近想用Electron做点东西，大致浏览了几个UI库，又想起一些用Electron做的App的糟糕体验，实在是想吐槽一番。也不知道大家是不是也有类似的感觉，还是只是我个人吹毛求疵。如果是我的问题，还请打醒我。

首先，这里的WebApp指的是用基于Web的技术制作的客户端程序，比如VSCode、Microsoft Teams、Github Desktop等等。我在使用VSCode和Microsoft Teams时，在用户体验上会跟NativeApp有严重的割裂感。除了渲染性能这种客观问题之外，最主要的问题是，手型指针被滥用了。

到处都是手型指针！

举例来说，在VSCode中，把鼠标放在一切能够点击的东西上，几乎都会变成手型，比如文件列表、文件Tabs、各种按钮等等：

然而，在主流的Windows/Gnome/KDE/macOS上，这些都不应该触发手型指针：

为什么在WebApp里面不应该大量使用手型指针?

因为滥用手型指针违背了各种Native UX设计指南——即，这就不是Native App的Feel。例如，在微软的Windows Desktop UxGuide中，明确说明了普通指针和手型指针的适用情况：

Normal Select – Used for most objects.
Link select – Used for text and graphics links because of their weak affordance.

在苹果的Human Interface Guidelines中，同样明确说明了普通指针和手型指针的适用情况：

Arrow – This is the standard pointer that’s used to select and interact with content and interface elements.
Pointing hand – The content beneath the pointer is a URL link to a webpage, document, or other item.

总结一下就是：只有在文本图片链接等情况下，才会推荐使用手型指针。所有一般情况，都应该使用普通的指针。

虽然手型指针为用户提供了额外的提示，表示这个元素可以被鼠标操作，但是在Native App中，很多时候不需要、也不应该依靠手型指针来增强操作提示。在微软的Windows App UxGuide中，有这样一段话：

Well-designed user interface (UI) objects are said to have affordance, which are visual and behavioral properties of an object that suggest how it is used.

也就是说，UI元素应当使用一些视觉和行为属性来表示它支持的操作——例如按钮应当做成看起来就可以被按下的样子、Slider应该有个槽槽来表示它可以被滑动，等等——而不是使用手型指针来提示这些操作。例子就像上面给出的Windows 资源管理器，以及QtCreator的侧边栏。

但为什么我不反感在普通网页中大量使用手型指针？

这里我也没有想的很清楚，可能的原因有：①在使用浏览器浏览网页时，我不期待网页会有Native的Look’n’Feel；②习惯了！

不过，我觉得主要的原因还是由于网页与客户端程序存在区别：

网页的本质是一篇文档。当我浏览一篇网页时，跟看一本杂志、看一本书很像。因此，网页上的交互组件应该优先与文档的整体风格保持一致，而不是优先显得“affordable”（不知道怎么翻译，可操作性?）。一个看起来就能够按下的按钮，且不说风格问题，更有可能喧宾夺主。所以我们可以弱化这些元素的affordance，而使用手型指针来增强操作提示。（说实话，很多Web UI Component的按钮，我就没什么按下去的欲望。）

然而客户端程序不是文档，尽管我们依然使用Web的技术来构建它，但它不是一篇文档。它的功能性更加重要，各类UI元素就是界面的主体。所以应该把各类UI元素在视觉上就设计得足够affordable，而不是去借助手型指针。上面贴出的VSCode中的各种button，有的甚至连hover效果都没有！

正例：Github Desktop

Github Desktop是我想举出的正例之一。它的下拉菜单、按钮、列表等等，全部使用普通鼠标指针，使用起来非常愉快：

结尾

其实除了手型指针这个问题之外，有些App还有一些小地方不够Native，比如Microsoft Teams中的一些图标存在延迟加载问题。在用Web技术做移动App时，大家都在往Native Look’n’Feel 靠拢；为什么到了Desktop，却不在意这些体验呢？

最后如果大家知道哪个UI库不滥用手型指针的，请推荐一个……

附：可以参考的其他讨论

https://ux.stackexchange.com/questions/105024/why-dont-button-html-elements-have-a-css-cursor-pointer-by-default

在 Medium.com 上查看

写出形似QML的C++代码

发表评论

最开始想出的标题是《Declarative C++ GUI库》，但太标题党了。只写了两行代码，连Demo都算不上，怎么能叫库呢……后来想换掉“库”这个字，但始终找不到合适词来替换。最后还是起了个low一点的名字，贱名好养活啊！

这篇文章的目的是介绍如何只用C++写出带有Declarative风格的代码。有一些GUI库需要额外的预处理过程（比如qt），还有一些也支持XML格式的GUI声明，但需要运行时Parse那个XML（比如wxWidgets）。能不能只用一个C++编译器、不要运行时Parse新语言来搞定这个问题？

直观地看上去，QML语法跟C++好像还有几分像，就选择QML进行借(chao)鉴(xi)吧。
最终的代码放在了 https://github.com/dontpanic92/yz ，代码与文章一同食用味道更佳。

继续阅读 →

编辑器背后的数据结构

发表评论

大约刚上大二的时候，想做一个编辑器控件。不是一个用Scintilla套上外壳的编辑器，而是一个能被套上外壳的控件。当然它最后也成为了我众多流产了的练手项目中的一员，不过人人黑历史里还留存着当时的一张截图

那段时间也对编辑器所使用的数据结构非常感兴趣。我们需要一种数据结构，能够支持字符串高效地索引、遍历、插入和删除。当时找的一些论文和书还躺在硬盘里一直没删，如今拿出来再嚼一嚼。下面介绍几种在编辑器中常见的数据结构。

继续阅读 →

贝叶斯分类器

发表评论

这是3月25日我在TM组机器学习讨论会上的分享。

Content

贝叶斯决策论
朴素贝叶斯分类器
半朴素贝叶斯分类器
贝叶斯网络

1. 贝叶斯决策论

贝叶斯决策论是一种基于概率的决策理论。当所有相关的概率都已知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

Example

哈工大与哈师大的同学举办大型联♂谊♀会，两个学校分别有500人参与。在联谊会上随机找到一个同学，请猜测他是那个学校的学生？

如果我们一点额外信息都不知道的话，只能随机猜测给出答案。如果我们能够提前知道一点点信息的话，就能够更大程度地猜中正确答案。比如，性别信息：

如此的话，假若这个同学是男生，我们肯定会猜测他是哈工大的学生。而从贝叶斯决策论的角度来看，我们需要比较以下两个概率大小：

P(工大学生=是 | 性别 = X)
P(师大学生=是 | 性别 = X)

上述两个概率被称作后验概率。后验概率往往难以直接获得，我们需要采用一定的手段进行计算。一些算法采用直接对后验概率进行建模的方法，例如SVM、决策树等，这些模型称为判别式模型。而先对联合概率进行建模、进而计算后验概率的模型，称为生成式模型：

\(P(c|\boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})}=\frac{P(c)P(\boldsymbol{x}|c)}{P(\boldsymbol{x})}\)

由此可以计算得到，P(工大学生=是 | 性别 = 男)为4/5，P(师大学生=是 | 性别 = 男)为1/5.

在上面的例子中，我们直接使用了后验概率对类别进行估计。实际问题中，如果将某一类估计错误的代价比较大的话，可以选择在后验概率前乘以一个系数，变为期望损失。分类也从最小化分类错误率变为最小化期望损失。

在上面的式子中，\(P(c)\)代表的是类先验概率。在样本足够大的情况下，直接使用频率即可作为这一概率；\(P(\boldsymbol{x}|c)\)叫做类条件概率，它跟属性x的联合概率有关。上面的例子中，x只有一维，而在实际问题中，往往会选择很多个Feature。此时他们的联合概率就变得难以计算，因此我们需要一些手段对它们进行估计。

继续阅读 →

站在镜像源背后的男人

发表评论

@雨翌说想知道镜像源是如何工作的，我们就来说一说这个。其实要做一个镜像源，需要搞定的有两件事：一是如何向广大用户提供下载服务，一条httpd start就搞定了；二是如何与上游同步，然而这种东西也一条rsync就搞定了

关于rsync

rsync提供了一种快速的文件同步的机制。一般的diff算法需要分别遍历两个文件，然而这种功能并不适用于远程传输：如果我能够同时获得需要同步的两个文件，再diff他们就没什么意义了。rsync使用的算法并不是特别复杂，可以Google The rsync algorithm 搜到Andrew Tridgell在1996年的论文，man rsync可以得到使用说明。

继续阅读 →

Brainfuck JIT Compiler in Rust

发表评论

Hello JIT

JIT不是一个神秘的玩意。
—— Tondbal ik Ni

我们都知道，对于解释型的语言实现来说，性能是大家关注的焦点。比如，这位 Tondbal ik Ni 曾经还说过：

P*没上JIT，慢的一逼！
—— Tondbal ik Ni

似乎这句话总是隐含着另一层意思：实现JIT，难！而当我们再一联想到JVM这种庞然大东西的时候，很自然的就

然而！JIT原理并不复杂，做出一个玩具JIT Compiler更是非常轻松。之所以JVMs那么庞大而复杂，原因之一在于它们做了大大大量的优化工作。

我们今天就要来看看JIT究竟是个什么东西！

Just-in-Time Compiler

JIT Compiler，究其根本还是一个Compiler。一个Ahead-of-Time Compiler的编译过程往往会有这些（既不充分也不必要的）步骤：

词法分析
语法分析
语法制导定义或翻译
中间代码生成
代码优化
目标代码生成

对于解释器来说，往往将编译工作进行到中间某一步后就直接进行解释执行了，并不生成目标代码。而JIT Compiler却是要生成目标代码的，最终执行的是编译好后的Native Code。只不过，它将目标代码生成的部分推迟到了执行期才进行。这样的好处有：

无需重新编译就可以实现跨平台
参考Java，它将平台差异隔离在了中间代码部分（指Java ByteCode）。
运行时优化
当年大欢还在用Gentoo的时候曾经开过嘲讽：本地编译，优化开的细，比你Arch强多了（然而后来还是倒戈到了Arch 666666）而一个JIT Compiler不仅知道目标平台的信息，更知道程序的运行时信息，因此往往可以有更多的优化。
解释/编译混合
这其实也可以看作是一种优化措施，即执行次数多的代码JIT编译后执行，执行次数少的代码解释执行。因为JIT还是需要一步编译的过程，如果代码执行次数少，很可能抵消不了编译过程带来的时间开销。

所以，其实优化是JIT Compiler中相当重要的一部分。如果我们不要优化，那可是简单了很多哟。

Core of JIT

如果你能看懂这段代码，那就说明你已经掌握了JIT的精髓了：

#include <stdio.h> 
#include <string.h>
#include <sys/mman.h> 

char f[] = {0x48, 0xC7, 0xC0, 0x00, 0x00, 0x00, 0x00, 0xC3}; 

int main(){  
    int a = 5; memcpy(&f[3], &a, 4); 
    char* mem = mmap(NULL, sizeof(f), PROT_WRITE | PROT_EXEC, MAP_ANON | MAP_PRIVATE, -1, 0); 
    memcpy(mem, f, sizeof(f)); 
    printf("%dn", ((int (*)())mem)()); munmap(mem, sizeof(f)); 
    return 0;
 }

其中mmap的作用是申请按照PageSize对齐的内存，并可以修改页面保护属性。

所以一个JIT Compiler编译的主要步骤就是：

申请一块可写、并且将来可以改成可执行的内存。
生成机器代码，写入内存。
修改内存页面属性，Call it!

So easy，下面进入脑残环节。

An interpreter for Brainf*ck

我们将实现一个Brainfuck的解释器，随后再实现一个JIT编译器。之所以选择Brainfuck，自然是因为它相当简单，完全可以当做中间代码进行处理，省去了词法语法分析、中间代码生成等与编译原理直接相关的部分。

解释器写起来就太简单了。Brainfuck预设我们有一块无限大的内存，初值均为0。数据指针指向第一个字节。它支持8种操作：

>
数据指针右移一格
<
数据指针左移一格
+
数据指针指向的内存内容+1
-
数据指针指向的内存内容-1
.
putchar
,
getchar
[
如果当前内存内容 == 0，则向后跳转至对应的]后
]
如果当前内存内容 != 0，则向前跳转至对应的[后

翻译器部分可以作为大一的C语言实验哈哈哈哈

A JIT Compiler for Brainf*ck

如果要手撸JIT Compiler，则需要对目标平台有一定的了解。我们这里的目标平台是x86_64，这个网址可以在线将汇编生成为x86或x64的机器代码。

第一步：申请PageSize对齐的内存
这一步除了使用mmap，还可以使用posix_memalign。

第二步：生成函数框架
在这里我们将一整个Brainfuck程序编译成一个函数。这个函数接受一个参数，即我们事先申请好的一块内存作为数据区域。对于x64来说，Linux等类Unix系统遵循的调用约定是System V AMD64 ABI，函数的第一个参数由Rdi传递。因此我们生成的函数的开始与结束部分如下：

pub fn compile_and_run(&mut self, code: &str) {  
    self.jit_code.emit_push_r(Reg::Rbp); 
    self.jit_code.emit_mov_rr(Reg::Rbp, Reg::Rsp); 
    self.emit_push_regs(); //Save regs 
    self.jit_code.emit_mov_ri(Reg::Rbx, 0); //Rbx = data_pointer 
    self.jit_code.emit_mov_rr(Reg::Rdx, Reg::Rdi); //Rdx = memory_base 

    //more code here... 

    self.emit_pop_regs(); //Load regs that saved before 
    self.jit_code.emit_mov_rr(Reg::Rsp, Reg::Rbp);
    self.jit_code.emit_pop_r(Reg::Rbp);     self.jit_code.emit_ret(); 
}

上面的代码中，各个emit函数的作用是生成相应的机器代码，放入内存中。例如emit_push_r(Reg::Rbp)将生成机器码0x55，它对应的汇编为push rbp。

接下来就是根据Brainfuck各个操作生成机器码了。例如>操作：

self.jit_code.emit_inc_r(Reg::Rbx);

So easy. 需要额外说明的只有两点：

一是我们可能需要重定位操作。当我们的buffer空间不够的时候，需要对其进行扩大，这样的话我们代码所在的地址就会变动。而有一些指令（比如Relative跳转、RelativeCall等）它的操作数是当前RIP（即程序计数器PC）与目标地址的 Offset，这就需要当我们最终结束生成这个函数时，再对这些指令的操作数进行计算。

二是对于[操作来说，需要一个patch back的过程。当我们在编译过程中遇到它的时候，我们并不知道跳转的目的地址是哪里。只有在遇到对应的]时，才能更新它的跳转地址。

第三步：Call it！

let mut memory: Vec<u8>= vec![0; 10000];  
let func: extern "C" fn(*mut u8) = unsafe { mem::transmute(self.jit_code.function()) };  
func(memory.as_mut_ptr());

Performance Comparison

我找了一个用Brainfuck写的Mendelbrot程序进行测试，它会在控制台输出Mendelbrot的ASCII图（大神请受我一拜）。除了上面自己实现的解释器和JIT编译器外，我还找了一个Brainfuck的编译器bfc进行测试。

测试结果大致如下：

Interpreter: ~1min
JIT: ~4.31s
bfc: ~4.21s

代码请参 https://github.com/dontpanic92/rainfuck

最后，由于将汇编翻译为机器码是一件体力活，我们还可以使用一些现成的工具。例如DynASM，通过预处理的方式将C + ASM混合代码处理为C语言代码（即省去了我们显示emit的部分）。或者，也可以考虑使用LibJIT或LibGCCJIT等库。

Reference

使用Reflexil修改Unity3D游戏逻辑

发表评论

曾经有个游戏叫做《新剑侠传奇》，曾经停留在一个尴尬的版本1.0.7。作为一名抠脚大汉，自然要坐在在电脑前为广大玩家发福利！

故事背景

游戏发售之后出现了一些Bug，官方在更新至1.0.7版本后决定回炉。然而这一版本依然有一些玩家比较需要的Feature没有实现。在长达两周多的回炉阶段，我的补丁横空出现啦！

技术背景

MSIL可以较为轻易地反编译回C#/VB代码，如果不做代码混淆的话，可读性非常高。目前很多国产单机游戏都选择Unity 3D做为引擎，并使用C#作为主要逻辑的实现语言。这为我们修改游戏逻辑创造了相当好的条件。

实现功能

打击感增强
通过在命中目标后停顿画面0.1秒实现。
新增操作模式
《新》是一个具备跟随视角的3D游戏，鼠标旋转视角，鼠标点击怪物为普攻，感觉略坑爹。新增操作模式采用类似龙之谷的方式：默认隐藏鼠标，鼠标移动旋转视角，鼠标点击为普攻，ctrl键呼出鼠标。
摄像机位置记忆
每次剧情之后摄像机都会回到初始位置，不会记忆上次用户调整的摄像机与人物的距离。
暂停游戏
进入战斗或者开始剧情之后，终于可以随意去上厕所了……
跳过开始动画
打开游戏时无需强制观看片头。
画面改善：对比度增强、Bloom、HDR
使用Unity内置Shader实现。

工具准备

.NET Reflector
我们用 .NET Reflector 来对 .NET Managed DLL 进行反编译工作。对于没有进行混淆或加密操作的程序，可以得到可读性很高的代码。
Reflexil
Reflexil 可以在已经编译好的Managed DLL中插入MSIL代码。它提供了.NET Relfector的插件，安装好后即可直接插入IL代码。
XamarinStudio (MonoStudio)
其实这个有无皆可。但是如果不想所有代码全部使用IL手写的话，还是搞一个比较好。

代码修改

拿打击感增强作为一个例子，我们来看一下如何修改。Unity 3D游戏的主体逻辑都在/xxxx_Data/Managed/Assembly-CSharp.dll中。这个游戏的逻辑由几百个类/枚举构成，如果游戏大量使用了Unity插件（比如可视化编程），可能还会更多。

增强打击感的方法是在玩家命中敌人后画面停顿0.1秒。所以我们需要在命中时记录当前时间、停顿画面，然后在0.1秒后取消停顿。

经过浏览代码，发现负责进行攻击的逻辑集中在Fighter类中。我们需要修改的有两个函数：一个是CalcHurt，发生在玩家已经命中怪物之后，用于计算伤害；另一个是Update，每次迭代更新逻辑时都会调用这个函数。我们还需要一个Field用于记录停顿时间，可以直接在类上右击通过 Reflexil添加。

打开CalcHurt方法，在Reflexil中添加IL代码。IL代码非常简单易懂，而且我们并不需要掌握所有的IL指令。简介可以参考Introduction to IL Assembly Language，或者在Common Language Infrastructure (CLI) | ECMA-335中有所有指令的列表。

在修改完IL代码后，.NET Reflector会重新加载并反编译代码。如果指令有错误，.NET Reflector会无法反汇编成功。

停顿功能使用了Unity提供的Time.settimeScale函数，获取时间使用Time.getrealtimeSinceStartup。这些函数可以参考Unity 3D Manual。

举例来说，

Time.set_timeScale(0.001f); InjectedField = Time.get_realtimeSinceStartup + 0.1;

的IL代码如下：

ldc.r4 0.0001 call Time.set_timeScale call Time.get_realtimeSinceStartup ldc.rc 0.1 add stsfld InjectedField #InjectedFiled为静态成员

就是这么简单啦。

使用XamarinStudio

如果不想所有代码全部手写，可以使用XamarinStudio新写一个Class，将所有新的逻辑放在这里。然后再修改原来的Assembly-CSharp.dll时，所有位置都变成函数调用就行了。

在编写新Class时，需要把游戏的Managed目录中的相关DLL作为引用添加进我们的工程里。对于这个游戏来说，我们主要用到了 UnityEngine、Assembly-CSharp、Assembly-CSharp-firstpass、Assembly- UnityScript-firstpass。

写好Class后，可以使用Reflexil将改Class添加进Assemby-CSharp的引用中。

请原谅时间久远电脑上已经没有XamarinStudio了

替换原始文件

没什么问题之后，就可以去论坛或者贴吧收获一番经验了~

关于Intel超线程技术

发表评论

原回答自知乎：奔腾四和SNB之后的超线程技术一样吗？

1.Pentium 4 HT（NetBurst）和Core i7（Nehalem）中的超线程技术一样吗？

Intel的超线程技术在2002年2月发布的志强处理器中首次出现，并在同年12月发布的Pentium 4 HT中同样加入了这一技术[1]。关于此时的Intel的超线程技术的论文比较多，比如(Deborah T. Marr et al, 2002)[2]。论文中提到，architecture state在各个逻辑线程中是独立存在的，而其余几乎所有资源都是共享的。Architecture state主要包括的是各种寄存器，例如通用寄存器、控制寄存器CR以及APIC寄存器等；而共享的包括缓存、执行部件、分支预测、控制逻辑以及总线。

而后来在Nehalem核心（Core i7）中重新回归的超线程技术，我没有找到官方详细的论文。不过找到了一个德克萨斯A&M大学博士生的论文，关于Nahalem核心的[3]。文中同样提到：对于同一个物理核上的逻辑核心，它们之间

独立：寄存器状态、返回栈缓冲（用于预测函数返回指令）、指令TLB（用于加速虚拟地址与物理地址的转换）
分隔（静态划分）：各种缓冲
竞争共享：分为SMT-sensitive 和SMT-insensitive。保留栈（用于实现乱序执行）、数据TLB、二级TLB等属于SMT-sensitive，所有执行单元均为SMT-insensitive。

以及共享Cache。

所以结构上看，基本一致。

两篇论文中都有提到CPU的Pipeline（流水线结构）。当Nehalem开启超线程时，将从两个线程中取指令，之后送入后端乱序执行引擎执行。而[1]中提到得Pentium 4在开启超线程后的做法则更为详细：两套指针分别记录两个线程的PC，解码后存入Execution Trace Cache（其为一级指令缓存的主要部分）。两个线程再按照时钟周期依次访问这个Cache。如果有一个线程stall住了，则另一个随意用。

大致来看，主要步骤基本相同。不过细节不太清楚。

2.什么是超线程？

超线程（即Simultaneous multithreading[4]）属于线程级并行方法。在说超线程技术（多线程技术）之前，我们先来看一下超标量技术。

超标量技术是一种指令级并行技术，具备超标量特性的CPU具有同时发射多条指令的能力，这样CPU就可以充分利用各种执行部件。举例来说，如果单发射一条加法指令，那么在执行过程中只有加法部件（或算数计算部件）被利用起来；如果我有两条指令：add R1, R2; shr R3, 3（加法和右移），如果两条指令同时执行，那么加法部件和移位部件就同时利用起来了。

然而能够同时执行的前提是：两条指令之间不能有相关性。例如第一条指令需要写R1，第二条指令需要读R1，那么这两条指令无法同时执行。由此即诞生出了乱序执行（Out of Order）技术：如果第三条指令与前两条指令没有相关性，则可以先执行第三条指令。

超线程技术则可以更加充分地利用执行部件：同时执行两条线程，进一步降低了指令之间的相关性。同时，如果一个线程需要访存（意味着大量的时钟周期可能被浪费）、或是分支预测失败（意味着需要清空流水线），超线程的优势就更明显了。

然而对于超线程技术的优劣则有激烈的讨论，主要集中在性能的提升的同时芯片面积与功耗等也在增加，这样的trade-off是否合适。

3.关于超线程技术消失又重现

Pentium Pro、Pentium 2、Pentium 3所使用的架构均为P6架构，Pentium 4使用Netburst架构，后续的Core 2使用的是Core架构，从Core i系列开始进入Nehalem/Sandy Bridge架构等[5]。

然而，NetBurst是相对独立的一个架构，让人记忆深刻的就是超长的流水线和相当高的频率。而Core架构是基于P6的变种Pentium M的架构改进而来的。在Intel的一个Slides中也可以得知，NetBurst和P6的Pipeline差异较大，Nehalem的基础需要在二者中做出选择。而最后做出让多线程回归的决定，也是一种“抉择”[6]。

Reference

Hyper-threading
Marr D, Binns F, Hill D L, et al. Hyper-Threading Technology Architecture and Microarchitecture[J]. Intel Technology Journal, 2002, 6(1):1.
http://www.cs.sfu.ca/~fedorova/Teaching/CMPT886/Spring2007/papers/hyper-threading.pdf
Thomadakis M E. The Architecture of the Nehalem Processor and Nehalem-EP SMP Platforms[J]. Jfe Technical Report, 2011.
http://sc.tamu.edu/systems/eos/nehalem.pdf
Simultaneous multithreading
Nehalem (microarchitecture) P6 (microarchitecture) Intel Core (microarchitecture)
http://web.stanford.edu/class/ee380/Abstracts/100217-slides.pdf

深度学习简介及单词的向量化表示

发表评论

Content

深度学习简介
NLP与深度学习
单词的向量化表示

1. 深度学习简介

首先应当明确的是，深度学习是机器学习中的一个领域。然而与传统机器学习所不同的是，传统的机器学习的重点在于特征的设计。在设计过特征之后，就变成了研究如何调整权重、优化参数来得到一个最优的结果。

然而特征设计所涉及的知识、经验的储备往往只有博士级别的研究人员才能够得心应手，而且特征设计的优劣往往直接影响最终的分类结果。与之相反，深度学习应用的是多层特征学习，其中特征学习指的是计算机能够自动地学习到特征的表示，这就解决了手工选择特征局限性较大的问题。深度学习提供了一个近乎统一的框架。它够表达各种信息，能够自动学习，并且非常灵活。这个框架也同样支持监督学习与非监督学习两种学习方式。

除此之外，深度学习还具备以下特点：

数据量增大时，深度学习的获益更多；
能够利用多核CPU、GPU加速
不断涌出的新模型、新算法
最终性能的提升

2. NLP与深度学习

事实上，在NLP领域，深度学习已经开始展现它的威力了。在应用方面，机器翻译、情感分析、问答系统等都依靠深度学习取得了重大的进步；而在NLP的各个层次上，例如语音识别、形态分析、句法分析、语义解释等，深度学习也发挥了重要的作用。接下来

语音

在语音层面，传统的表示形式采用了表格的形式来表示每一个音素。而在深度学习中，将每一个音素表示为向量。

字形

对于一个单词来说，传统的表示形式将词根、前缀和后缀分开表示，例如un-interest-ed。而在深度学习中，往往将一个词素表示为一个向量。

句法

传统的表示方法会显示地标注出每一个短语的具体类别，例如VP、NP等。而在深度学习中，会将一个词或短语均表示为向量。

语义

lambda演算是一种在语义层面的传统表示方式。例如，将likes视作接受两个参数的函数，每一次合并都相当于柯里化的过程：

而在深度学习中，仍然将语义表示为向量的合并。

可以看出，向量形式是NLP中所有层次的表达形式。

3. 文本的向量化表示

意义

语言文字或一些符号具备一定的意义。例如，苹果和apple所指代的意义相同。而对于一个外星人来讲，■△▲〓※↓↑〓↓说不定就代表“苹果”。因此，如果想要让计算机理解这一层意义，那么它也需要一种表示；反之，如果我们认为某种表示是计算机所理解的“苹果”，那么即便我们无法阅读（例如■△▲〓※↓↑〓↓），这也是在合理范围之中的。

意义在计算机中的表示

一种表达意义的方式是利用同义词和上位词。例如，熊猫属于动物一类，我们可以用“动物”来表达熊猫的某些方面的意义。再比如，good和well有时意义相近，那么我们可以用well来代表good的某些方面的意义。

然而，这样的表示的问题在于：

缺乏语义差别的信息
难以适应新词
主观
需要人工标注
相似度难以计算

究其根本原因，在于这种方式将单词视为了一种原子符号。或者说，如果在向量空间中对其进行表示的话，我们把它叫做one-hot：

one-hot的问题在于，无法表示单词之间的意义相近的关系。例如，hotel和motel两个词，如果利用one-hot形式来表示的话：

hotel = [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]

motel = [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

我们无法使用向量运算来获得它们之间意义上的相似度。

You shall know a word by the company it keeps.

–J.R.Firth

J.R.Firth是50年代著名的语言学家，他的这句话被誉为当代NLP领域中最成功的思想之一。对于一个单词的意义，较好的方式是考虑它的上下文。

而这个“上下文”，则有不同的范围可以选择：其一是将整个文档作为上下文，另一种是选择一个较小的固定的窗口作为上下文。对于“全文档共现”来说，单词向量的维数是文档的个数，如果这一单词在某一篇文档中出现，则该维置1。全文档共现的方式能够挖掘单词的隐含语义。例如，对于“足球”和“教练”来说，它们很有可能在多篇文档中共同出现，则它们的向量也有多维同为1；如果取and的话，就可以获得它们之间的相似程度。

而对于基于窗口的共现来说，其能够同时获得语法与语义的信息。下面我们通过一个例子来看一下基于窗口共现方式的词向量学习过程。

我们选取三句话：

I like deep learning.
I like NLP.
I enjoy flying.

窗口大小取为1，即向前看1一个词、向后看1个词，窗口中一共3个词。通过对共现次数的计数，可以得到以下的矩阵：

我们可以发现，这个矩阵有这样的几个问题。一是维度过高，它与整个vocabulary相关，因此维度也会随着词汇量的增加而增加；而是矩阵十分稀疏，这将导致难以训练出有效的模型。我们可以通过两种方法来降低词向量的维度：一是用数学方法对这个矩阵进行降维（如SVD奇异值分解）；或是不通过这个矩阵，而是直接估计出词向量。

SVD奇异值分解

通过SVD分解，可以将一个mxn的矩阵分解为3个维度分别为rxn、rxr、mxr的矩阵。我们所需要的词向量信息都存储在第一个rxn的矩阵当中。第二个rxr的矩阵是一个对角矩阵，通过调整对角线上的数值可以对第一个rxn矩阵的列进行排序，从而让比较重要的维排在前面。

使用numpy可以很容易地进行SVD分解计算：

U, s, Vh = numpy.linalg.svd(X, full_matrices=False)

下图是取前两维生成的plot：

可以看出，相对相近的单词距离更近。

使用SVD方法时，可以进行一些hack，例如通过阈值或过滤的方法对停用词进行处理、添加权重、使用Pearson相关系数代替count等。

然而，SVD奇异值分解有一些弊端。例如，计算复杂度与m×n相关、难以加入新的单词等。最后，它与深度学习的审美不同：深度学习通常追求从某一个例子中学习一些东西然后再移动到下一个，而SVD方法却需要对所有语料进行整体地处理。

直接学习低维向量

除了利用SVD方法把高维矩阵降维处理外，还可以直接学习低维向量。例如word2vec，他直接预测每个单词相邻单词的概率。除了word2vec，2014年出现了Glove: Global Vectors for Word Representation. Pennington et al. (2014)。它们可以向语料库中不断添加新词。

word2vec的核心思想是：当窗口长度为c时，预测与中心词共现的单词。其目标函数为：

其中p为

然而当单词量增大后，其计算将会变得缓慢。因此，我们可以通过采取采样、简化概率函数等方式进行近似。

	基于频数的方法	直接预测方法
优势	训练速度快充分利用了统计信息	性能更好可以获得到比单词相似性更复杂的信息
劣势	主要用来获得单词之间的相似度当频数较少时，获得的比重不合适	与语料库的大小有关没有利用统计信息

Reference

http://cs224d.stanford.edu/