OLYM小记：Cryptool2插件开发

2025-08-28

简介

在深圳奥联信息安全有限公司实习期间，开发Cryptool2插件的一些小记。

Cryptool2介绍

Cryptool2是一款开源软件，其内置了大量密码算法的“图形化编程”插件，通过不同输入/输出相连接，可极为直观地展现密码算法内部/密码应用中不同函数的调用流程。
其内置了极大量密码学算法插件(涵盖古典密码学的各种~~奇技淫巧~~，现代密码学中经典的对称加密、非对称加密、数字签名、哈希函数等)，同时用户也可自行开发插件并应用之。

由于其插件封装后的图形化流程设计非常~~生动形象~~，故其最大的用武之地之一即为新标准的教学与演示用途：

主要工作内容

根据GM/T 0018-2023：密码设备应用接口规范在Cryptool2中实现对应函数的插件，并基于新开发插件完成SM9密钥协商、加解密、签名与验证等的全流程demo。

最终实现节选（SM9密钥协商）：

浅析

Cryptool2是.NET架构下的软件，其插件的“特性”都可以在C#代码中找到：

具有任意数目的输入/输出端接口供连接，数据类型可自定义
通过Settings可以接收外部输入“设置”型参数，支持多种选择方式（如文本框TextBox、复选框ComboBox等）
可以展示内部的运算流程（较高级）和计算进度
通过OnPropertyChanged可以让某个输入/输出参数发生变化时“知会”连接的关联端口，再发起一次计算

技术栈

密码学基础及应用知识（加解密、签名与验签、密钥协商、散列函数应用、国密算法等）
服务器密码机接口封装调用
C++和C#语言程序设计、C#中调用C++函数的逻辑
基于Visual Studio 2022进行大型项目开发

部分技术详解

dll调用

DLL，全称Dynamic Link Library（动态链接库），表示程序在编译时只保留了某个“外部”函数的入口，运行时从另一个动态链接库文件(Win下的.dll，*ix下的.so)调用之。

如此做的优点包括但不限于：

允许跨语言调用（如C#调用C++代码）
减小主程序体积
通过DLL复用（多个线程/进程可以多次调用同一个DLL且互不冲突）来降低空间占用
拓展功能时不需要重新编译整个程序或变动既有基础架构

如在CrypTool2插件的开发中，每个插件的子项目的编译结果都是.dll，如此在新建/变更组件时不需要重新build整个项目，只需（重新）编译该项目对应的dll即可。

在密码学应用中，运行效率至上的原则决定了其底层密码算法最好用C/C++实现——故在编写好C++代码逻辑后，从C#中调用C++代码也就成了完成“夹心”的关键一步。

C#中通过DllImport属性声明可以发起一次对外部dll的调用，如：

1
2

[DllImport(dllname, EntryPoint = "SDF_GenerateAgreementDataWithSM9", CallingConvention = CallingConvention.Cdecl)]
public static extern int SDF_GenerateAgreementDataWithSM9(IntPtr hSessionHandle,uint uiMastKeyIndex,uint uiISKIndex,uint uiKeyBits,byte[] pRespID,uint uiRespIDLen,byte[] pSponsorID, uint uiSponsorIDLen,out SM9EncMasterPublicKey pPubKey,out SM9EncMasterPublicKey pSponsorTempPubKey,out IntPtr hAgreeHandle);

其中由于C#和C++堪称隔行如隔山~~明明都是++，为什么C++和C的差别还没这么抽象~~，因此调用中有诸多关键点：

首先数据类型必须一致（基本数据类型外，结构体等还需要MarshalAs和StructLayout等显式明确其内存排列方式，否则出错几近于必然事件）；
由于C++和C#对底层数据的处理方式不同（如C#中除不安全代码外没有“指针”的概念，与C++指针和引用泾渭分明相对），因此在传参时应当进行一些“翻译”。

如，根据GM/T 0018-2023，上述SDF_GenerateAgreementDataWithSM9函数的C语言原型如下：

int SDF_GenerateAgreementDataWithSM9(
HANDLE hSessionHandle,
ULONG uiMasterKeyIndex,
ULONG uiISKIndex,
ULONG uiKeyBits,
BYTE * pResponseID,
ULONG ulResponseIDLen,
BYTE * pSponsorID,
ULONG ulSponsorIDLen,
SM9EncMastPublicKey* pPublicKey,
SM9EncMastPublicKey* pSponsorTempPublicKey,
HANDLE * phAgreementHandle);

其中HANDLE是void*的typedef，BYTE为unsigned char，ULONG为unsigned long。

将之“翻译”为C#的extern函数声明时的注意点有几点：

基本类型（含指针，对应C#~~传奇般的~~IntPtr）可以直接传参；
带有指针/引用性质的传参时，需留意其功能上的属性为输入还是输出量。解法有三种：ref，对应C/C++的一阶指针/引用（输入/输出）；out，用于输出变量（从C#的角度看可以内联变量声明，C/C++中依然是使用指针/引用传参）；做数组“提升一维”，形如C#的int[]对应C++的int*。

使用out进行传参时部分场景下容易出现运行错误，原因不明；其或与out内联变量的内存初始化时机有关（尽管out的“函数内初始化”更应偏向语义约束，栈内存应在进入函数前就已经分配完成），故使用int[1]类似的传参方式依然最为稳妥。

如存在C++函数：

1	int nihao(const int* read,int* write);

对应C#的外部调用方式可以形如：

1 2	[DllImport(dllname, EntryPoint = "nihao", CallingConvention = CallingConvention.Cdecl)] public static extern int nihao(ref int read,int[] write);

调用时，由于C#要求关键字“二次确认”（即调用时、声明时需要同时声明关键字out/ref等），故上下文可能形如：

public void func()
{
    int init = 0;
    int[] buf = new int[1];

    nihao(ref init,buf);
}

Property相关

输入/输出数据方面，只需要在类中声明一个Property并明确其属性，期望的数据类型即为Property自身的类型，get和set方法均为默认值。

如这段代码：

[PropertyInfo(Direction.InputData,"SessionHandle","会话句柄",true)]
public IntPtr SessionHandle
{
    get;
    set;
}

效果形如：

其中最后一个参数仅在性质为Direction.InputData时有效，表示该输入是否为必须值（若未输入则该插件不运行，否则以缺省值运行）。

这些Property在管理上的另一个显著特征为：改变其值后，应当调用OnPropertyChanged函数来“告知”与之相连的模块此Property更新了数值，达成宏观上“流水线”般工作的效果：

if (iRet == XCipherEngine.SDR_OK)
{
    Result = true; //Result is `public bool` property
    OnPropertyChanged("Result");
}

Settings同样也采用Property的方式表述，其和输入/输出数据的差分只在于set函数和私有变量的“另行”设置。参考：

private uint iskIndex = 0;

[TaskPane("ISKIndex","私钥索引",null,1,false,ControlType.TextBox)]
public uint ISKIndex
{
    get => iskIndex;
    set
    {
        if (value != iskIndex)
        {
            iskIndex = value;
            OnPropertyChanged("ISKIndex");
        }
    }
}

其动机依然在于关键的OnPropertyChanged——识别新的设置项是否与以往的不同，若然，则触发新一轮计算。
显然这种get和原变量分离的方法也可用于其它逻辑的封装，如：

#region Private Variables
private uint opt = 0;
private readonly uint[] keyLen_map = { 256 };

#endregion

#region TaskPane Settings

[TaskPane("KeyLen", "输出密钥长度", null, 1, false, ControlType.ComboBox,new string[] {"256"})]
public uint KeyLen
{
    get => keyLen_map[opt];
    set
    {
        if (value != opt)
        {
            opt = value;
            OnPropertyChanged("KeyLen");
        }
    }
}

展开全文 >>

C++——与AES-Integrals的双鹭翩舞

2025-08-20

书到用时方恨少，事非经过不知难。

本篇针对的是玲珑的第一个独立密码学/C++项目——AES-Integrals。
意在详解利用Modern C++相较传统C/C++对此密码学攻击实现中，代码质量（可读性、维护性与拓展性）及运行效率方面的优化。

有关AES积分攻击的密码学分析，可移步AES积分攻击：霜天

`aes.h`

aes.h中实现了对称密码学有关的基本函数和配套类、具备多种功能的AES类等，是被复用/拓展的根基。

`struct byte`：迷雾乱花

struct byte实现的部分节选如下：


struct byte 
{
    explicit constexpr byte(unsigned char _val) : value{_val} {}
    constexpr byte() : byte(0) {}

    // Default special member functions
    constexpr byte(const byte&) = default;
    constexpr byte(byte&&) noexcept = default;
    constexpr byte& operator=(const byte&) = default;
    constexpr byte& operator=(byte&&) noexcept = default;
    constexpr ~byte() = default;

    // Conversion
    constexpr operator unsigned char() const noexcept { return value; }

    // Bitwise operators
    friend constexpr byte operator&(byte x, byte y) noexcept
    {
        return byte{ uc(x.value & y.value) };
    }

    //...
};

略去者均为运算符重载等“重复性”内容。

struct byte的几个特点在于：

该struct是 trivial 的，即其只有一个公有数据成员unsigned char value，且其遵循基本类型的复制、移动及析构逻辑，因而该struct在程序中的额外开销相较unsigned char或其它enum类型几乎为零；
其构造函数和转换构造函数采用了单向explicit的设计：由于认为struct byte是一个有限“域”，故其它的整数类型（无论初始值在不在unsigned char的范围内）向byte的转换都应当被显式声明；反之则不然（即允许struct byte向普通的整数类型隐式转换）。
仅重载了位运算符，所有运算符重载的运算对象的返回值都是byte，但移位运算符除外（第二操作数选择了unsigned char）。


byte a; //OK
byte b = a & 3; //Error: Ambiguious invocation

`block_fromhex`：万象霜天

简介

本函数意在实现std::string_view（泛“字符串”）向std::array<byte,16>，即所谓“块”的转换。

定义及对比

constexpr std::expected<block,std::string> block_fromhex(std::string_view sv)
{
    auto refloc = sv.data();
    block res{};    
    for (auto& bt : res)
    {
        uc temp{};
        if (sv.empty())
        {
            return std::unexpected{ "Insufficient text to generate a block" };
        }

        if (auto val = std::from_chars(sv.data(), sv.data() + 2, temp, 16);val.ptr != sv.data() + 2)
        {
            return std::unexpected{ std::format("Non-hex character at position {}",val.ptr - refloc) };
        }

        bt = byte{ temp };
        auto fn = [](char ch) -> bool {return std::isblank(ch);};
        sv.remove_prefix(2);
        sv = sv.substr(std::ranges::find_if_not(sv, fn) - sv.begin());
    }    

    return res;
}

相比之下，一个传统C++的实现可能会形如：

byte[16] block_fromhex(const char* ch,size_t len)
{
    //...

    if(...)
    {
        throw std::exception("...");
    }

    //...
}

int block_fromhex(const char* ch,size_t len,unsigned char* out)
{
    //...
}

逐行分析改进点：

函数原型声明上，由于block_fromhex默认都会开辟新的栈内存空间来存放“转换”的结果~~所谓csharp中的out Block result~~，故显然将结果放在返回值中“传出”是更好的选择。但又由于需要将异常信息传出，则只能依靠throw来解决此问题——潜在的栈回溯的副作用之一，即为极大限制了代码效率上限（编译器需为这个可能的“出口”进行额外分支判断等），起步即逊于能被声明为noexcept的现代C++实现。
若选择C语言类似的解法，依靠int作为返回值并将目标数组以 out 参数指针置于其中，且不论内存安全性，在调用代码中必须手动检查其返回值——极大增加疏漏风险的同时，使得调用逻辑变得更加繁琐。
相较之下，本实现（C++23版本）使用了std::expected<block,std::string>，在提高内存和执行效率的同时，调用逻辑也显得更为清晰~~甚至没算上链式调用~~：
1
2
3
4
5
6
7
8
9
if(auto bk = block_fromhex(buf);bk)
{
val[i] = *bk;
}
else
{
std::println("{}",bk.error());
exit(1);
}
内部实现直接封装对C++标准库中<charconv>的std::from_chars的调用，保证正确性的同时（参考C++ Core Guidelines之尽量避免“手搓”函数，优先级：标准库>三方库>手搓）。from_chars的返回值直接用 Structural Binding 捕获，通过看ptr是否为其起始位置+2即可快速判断解析是否正确。
循环用auto&来遍历res(std::array<byte,16>)，保证每行只解析前16组有效的十六进制字符，std::string_view在提供对C样式字符串、std::string等较好的适配性的同时，性能比另开std::string/const std::string&高且保证了内存安全~~所谓view-type的魅力~~。
“移进”扫描点时采取了跳过所有非空格字符的策略，此处封装了对std::isblank的调用（因原函数返回值是int，似乎可以用std::invoke_r更进一步改善？）

该函数的进一步封装和拓展点应在“流”的phase，及对部分异常处理的差分策略。

`gmul`

创新的定义

namespace _gmul 
{
    using table_t = std::array<byte, 2048>;
    constexpr byte gmul_fn(byte a, uc b) noexcept
    {
        byte p{};
        while (b)
        {
            if (b & 1)
            {
                p ^= a;
            }
            byte hi_bit{ a & 0x80_t };
            a <<= 1;
            if (hi_bit)
            {
                a ^= 0x1b_t;
            }
            b >>= 1;
        }
        return p;
    }

    static constexpr std::array<int, 8> val_idxs = { 2,3,1,1,0x0e,0x0b,0x0d,0x09 };

    consteval table_t table_gen() noexcept
    {
        table_t res{};

        for (int i : std::views::iota(0, 2048))
        {
            res[i] = gmul_fn(byte(i % 256), byte(val_idxs[i / 256]));
        }

        return res;
    }

    static constexpr table_t table = table_gen();

    struct gmul_t
    {
        constexpr byte operator()(byte a, int b) const noexcept
        {
            return table[b * 256 + a];
        }
    };

    static constexpr inline gmul_t gmul = {};
}

解析

gmul（ \(GF(2^8)\) 下的乘法）的实现是AES加密的重要组成部分。既有C/C++对这一模块的实现基本分三种思路：

只实现gmul的计算逻辑（如上述gmul_fn所述），所有数值全部在运行时计算；
利用AES类中乘法的第二操作数只有8个选项（2,3,1,1及其“逆元”）的特性，将待获取的乘法结果（256*8种组合）“打表”备用；具体实现或为静态字面量悉数枚举（即常量初始化之），或为程序运行开始时完成计算并置于静态存储区种。

这几种实现思路各有优劣，综合来看第三种实现较好；但现代C++引入的constexpr、consteval和对编译期计算的全面支持，使另一种可能性浮出水面——将计算逻辑使用编译期函数表述之，并在编译期完成全部计算（形如上述的consteval table_t table_gen();，consteval约束其解析一定在编译期完成）。

另外，gmul这个外部调用“接口”的函数采用了 ranges algorithm “同款”的函数对象实现。

此处“函数”gmul的实现照顾了待在AES类中调用所需的乘数，使其调用逻辑更为简洁。

`AES`类

主要实现了AES类的加/解密公开接口及内部组件的私有函数。节选形如：

using block = std::array<byte, 16>;
using block_vw = std::span<byte, 16>;
using block_rvw = std::span<const byte, 16>;

template<size_t Rounds = 10> requires (Rounds >= 1)
class AES
{
public:
    using rnd_key_t = std::array<block, Rounds + 1>;
    constexpr AES(block_rvw key) :rnd_keys(key_expansion(key)) {}

    constexpr block encrypt(block_rvw plain)
    {
        block state{};
        for (int i : std::views::iota(0, 16))
        {
            state[i] = plain[i];
        }

        add_round_key(state, 0);

        for (auto i : std::views::iota(1ull, Rounds))
        {
            sub_bytes(state);
            shift_rows(state);
            mix_columns(state);
            add_round_key(state, i);
        }

        sub_bytes(state);
        shift_rows(state);
        add_round_key(state, Rounds);
        return state;
    }

    constexpr block decrypt(block_rvw cipher) /**/

private:
    static constexpr byte s_box[] = /*...*/;

    static constexpr byte inv_s_box[] = /*...*/;

    static constexpr byte r_con[] = /*...*/;

    static constexpr rnd_key_t key_expansion(block_rvw init) noexcept
    {
        rnd_key_t rk{};
        std::ranges::copy(init, rk[0].begin());

        for (auto i : std::views::iota(1ull, Rounds + 1))
        {
            block_rvw prv = rk[i - 1];
            block_vw cur = rk[i]; //seperating to make read-only sematic more explicit

            for (int j : iota_word)
            {
                cur[j] = prv[j] ^ s_box[prv[12 + (j + 1) % 4]];
            }

            cur[0] ^= r_con[i - 1];

            for (int j : std::views::iota(4, 16))
            {
                cur[j] = prv[j] ^ cur[j - 4];
            }
        }

        return rk;
    }

    static constexpr void sub_bytes(block_vw s) noexcept
    {
        for (byte& i : s)
        {
            i = s_box[i];
        }
    }

    static constexpr void inv_sub_bytes(block_vw s) noexcept
    {
        for (byte& i : s)
        {
            i = inv_s_box[i];
        }
    }

    static constexpr void shift_rows(block_vw s) noexcept
    {
        std::ranges::copy(block{
           s[0], s[5], s[10], s[15],
           s[4], s[9], s[14], s[3],
           s[8], s[13], s[2], s[7],
           s[12], s[1], s[6], s[11]
            }, s.begin());
    }

    static constexpr uc shift_rows_idx[] = {
        0,5,10,15,
        4,9,14,3,
        8,13,2,7,
        12,1,6,11
    };

    /**/

    static constexpr void mix_columns(block_vw s) noexcept
    {
        block res{};

        for (int i : std::views::iota(0, 16) | std::views::stride(4))
        {
            for (int x : iota_word)
            {
                for (int k : iota_word)
                {
                    res[i + x] ^= gmul(s[i + (x + k) % 4], k);
                }
            }
        }

        std::ranges::copy(res, s.begin());
    }

    static constexpr void inv_mix_columns(block_vw s) noexcept
    {
        block res{};

        for (int i : std::views::iota(0, 16) | std::views::stride(4))
        {
            for (int x : iota_word)
            {
                for (int k : iota_word)
                {
                    res[i + x] ^= gmul(s[i + (x + k) % 4], k + 4);
                }
            }
        }

        std::ranges::copy(res, s.begin());
    }

    static constexpr void bytes_xor(block_vw to, block_rvw other) noexcept
    {
        for (auto&& [x, y] : std::views::zip(to, other))
        {
            x ^= y;
        }
    }

    static constexpr block bytes_xor_ret(block_rvw x, block_rvw y) noexcept
    {
        block res{};
        for (int i : std::views::iota(0, 16))
        {
            res[i] = x[i] ^ y[i];
        }
        return res;
    }

    constexpr void add_round_key(block_vw block, size_t index)
    {
        bytes_xor(block, rnd_keys[index]);
    }

    static constexpr auto iota_word = std::views::iota(0, 4);
    static constexpr auto iota_byte = std::views::iota(0, 256) | std::views::transform([](int x) {return byte(x);});

    rnd_key_t rnd_keys;
};

解析

AES类通过size_t类型的模板参数提供了对不同轮数加/解密的支持（默认值为10轮），同时通过内联一个concept约束其轮数不小于1。

由于轮密钥存储等环节中利用了大量Rounds有关的参数，从编译器优化、运行效率、潜在应用场景等角度出发，笔者没有将轮数作为运行时参数。

encrypt等函数需要进行“遍历”时，笔者在其中大量应用了std::views::iota及其封装变形（iota_word/iota_byte）。
其相较传统for循环的优势有：

调用语义、逻辑简洁统一（“一目了然”的iota_word）；
std::views::iota的循环是安全的（其类似不能被“打断”的迭代器，参考Python中range(x)的行为），从根源防止了循环体内临时修改变量等操作导致的bug；
由于该循环确定（必定执行16次），因而编译器可以有更大的优化空间（const变量和各类编译器常量的应用同理）。

`std::formatter`相关

template<>
struct std::formatter<::byte> //F**king ADL...
{
    constexpr auto parse(std::format_parse_context& fpc)
    {
        return fpc.begin();
    }

    auto format(::byte b, std::format_context& fc) const
    {
        return std::format_to(fc.out(), "{:02x}", b.value);
    }
};


template<>
struct std::formatter<block_rvw>
{
    constexpr static auto hexify = [](::byte x) {return std::format("{:02x}", x.value);};

    constexpr auto parse(std::format_parse_context& fpc)
    {
        return fpc.begin();
    }

    auto format(block_rvw v, std::format_context& fc) const
    {
        return std::ranges::copy(v | std::views::transform(hexify) | std::views::join, fc.out()).out;
    }
};

目前（截至这篇Blog）本aes.h实现中没有提供自定义的窗口，仅使用format函数的部分“快速”复用来提供byte和block及类似类的格式化。

有趣的是ADL(Argument-Dependent Lookup)在byte的定义中“发威”了一番：由于全特化(Full Specialization)时使用了std::formatter声明之，此时填写其模板参数时会优先在namespace std（而非默认的全局空间）中查找byte，因而必须明确::byte方能正确特化之。
~~小趣事2.0：std::byte似乎在标准库中还没有std::formatter特化，连个unsigned char的forwarding都懒得干~~