Karukan:基于神经网络的日语输入系统,实现实时、上下文感知的高级日语转换

📅 2026/7/3 18:31:48
Karukan:基于神经网络的日语输入系统,实现实时、上下文感知的高级日语转换
【导语Karukan 是一款面向 Linux 和 macOS 的日语输入系统它基于神经网络的假名汉字转换引擎具有实时转换、上下文感知等特点为日语输入带来了新的体验。】多平台适配的日语输入系统Karukan 项目由多个组件构成以满足不同平台的需求。其中karukan - fcitx5 是面向 Linux 的 IME 前端作为 fcitx5 的插件支持 C FFIkarukan - macos 则是面向 macOS 的 IME 前端基于 Swift/InputMethodKit 开发。此外还有通用 IME 引擎 karukan - im包含状态机、罗马字转换功能等核心库 karukan - engine 负责罗马字到平假名的转换及神经网络假名汉字转换karukan - cli 是命令行工具和服务器具备多种功能。神经网络驱动的高级日语转换Karukan 的核心亮点在于其神经网络假名汉字转换功能。它使用基于 GPT - 2 的模型通过 llama.cpp 进行推理实现高级日语转换。这种转换方式不仅能实时显示转换结果无需按 Space 键即可推进转换可通过 Ctrl Shift L 开启或关闭此功能还具有上下文感知能力在转换时会考虑周边文本信息。同时系统具备转换学习功能会记住用户选择的转换结果在后续转换中优先显示并且支持预测转换前方匹配在输入过程中就能提示已学习的候选词。丰富的候选词与表情符号输入Karukan 的系统字典依据 SudachiDict 的字典数据构建还移植了候选词改写器从 Mozc 移植能自动生成半角片假名、英文字母大小写及全角半角、相关符号候选词以及数字的各种表示形式每个候选词都带有来自 Mozc 的注释。在表情符号输入方面支持假名读音输入和 Slack 风格的 :trigger 查询为用户提供了更多的输入选择。安装与许可证说明对于不同平台Karukan 提供了相应的安装方法。Linux (fcitx5) 用户可参考 karukan - fcitx5 的 README 文件macOS 用户则参考 karukan - macos 的 README 文件。需要注意的是首次启动时系统会从 Hugging Face 下载模型首次开始转换可能需要一些时间后续启动将使用已下载的模型。本项目采用 MIT 或 Apache - 2.0 的双重许可证在 karukan - engine/data/ 目录下包含了从 Mozc 派生的数据这些数据遵循 BSD 3 - Clause 许可证进行分发。编辑观点Karukan 凭借其先进的神经网络技术和丰富的功能为 Linux 和 macOS 用户提供了优质的日语输入解决方案有望在日语输入领域占据一席之地。