从零实现KNN：构建手写数字识别引擎

张开发

• 2026/4/10 23:00:22 • 15 分钟阅读

分享文章

1. 为什么选择KNN实现手写数字识别KNNK-Nearest Neighbors算法是机器学习领域最经典的算法之一特别适合作为入门学习的第一个算法。我记得刚开始接触机器学习时就被它的简单直观所吸引——不需要复杂的数学推导只需要计算距离就能完成分类任务。手写数字识别是计算机视觉领域的Hello World项目。MNIST数据集包含了6万张训练图片和1万张测试图片每张都是28×28像素的灰度图像。这个数据集之所以经典是因为它足够简单但又具备实际应用价值。我最早用KNN实现手写数字识别时准确率就能达到96%以上这对于初学者来说是个很大的鼓励。与直接调用sklearn库不同从零实现KNN能让你真正理解算法的每个细节。比如距离计算时为什么要用欧式距离而不是曼哈顿距离K值的选择对结果有什么影响加权投票机制如何实现这些都是只有自己动手实现才能深刻理解的。2. 理解KNN算法的核心原理2.1 KNN算法的工作流程KNN算法的核心思想可以用一句话概括物以类聚。想象你在一个新班级想判断自己适合加入哪个兴趣小组最自然的方式就是看看离你最近的几个同学都参加了什么小组。算法具体分为四个步骤计算测试样本与所有训练样本的距离按距离排序找出最近的K个邻居统计这K个邻居的类别分布采用投票机制确定测试样本的类别在实际项目中我发现距离计算是最耗时的部分。对于MNIST数据集每个测试样本都要计算与6万个训练样本的距离这也是KNN算法的主要瓶颈。2.2 距离度量的选择欧式距离是最常用的距离度量计算公式为def euclidean_distance(x1, x2): return np.sqrt(np.sum((x1 - x2)**2))但在某些场景下曼哈顿距离可能更合适。我曾经在一个项目中发现当特征维度很高时曼哈顿距离的效果反而更好。对于图像数据余弦相似度也是不错的选择因为它更关注方向而非绝对距离。2.3 K值的选择技巧K值的选择对结果影响很大。太小的K值容易受到噪声干扰太大的K值又可能包含太多不相关样本。我通常的做法是尝试多个K值绘制准确率曲线。在我的实验中K3到K7通常能取得不错的效果。但要注意最佳K值会随数据集变化。一个实用的技巧是选择奇数的K值这样可以避免平票的情况。3. 从零实现KNN算法3.1 数据预处理MNIST数据集可以直接从sklearn加载from sklearn.datasets import fetch_openml mnist fetch_openml(mnist_784, version1) X, y mnist[data], mnist[target]但原始数据需要做一些预处理将像素值归一化到0-1范围将标签从字符串转为整数划分训练集和测试集我习惯使用80%-20%的划分比例X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.2, random_state42)3.2 核心算法实现完整的KNN实现只需要不到50行代码class KNN: def __init__(self, k3): self.k k def fit(self, X, y): self.X_train X self.y_train y def predict(self, X): predictions [self._predict(x) for x in X] return np.array(predictions) def _predict(self, x): # 计算距离 distances [euclidean_distance(x, x_train) for x_train in self.X_train] # 获取最近的k个样本 k_indices np.argsort(distances)[:self.k] k_nearest_labels [self.y_train[i] for i in k_indices] # 多数投票 most_common Counter(k_nearest_labels).most_common(1) return most_common[0][0]这个实现虽然简单但包含了所有核心逻辑。我在第一次实现时犯过一个错误——没有对距离进行排序就直接取前K个结果准确率惨不忍睹。3.3 性能优化技巧原始实现的效率很低特别是当数据量大时。我总结了几个优化方法使用向量化计算代替循环distances np.sqrt(np.sum((X_train - x)**2, axis1))使用KD树或Ball Tree数据结构加速近邻搜索对数据进行降维处理如PCA在我的笔记本上优化后的实现比原始实现快了近100倍这对实际应用至关重要。4. 进阶加权KNN实现4.1 为什么需要加权标准KNN中所有邻居的投票权重相同这不太合理。直觉上距离更近的邻居应该有更大的话语权。实现加权KNN只需要修改投票部分def compute_weight(distance, a1, b1): return b / (distance a) # 在predict方法中 weights [compute_weight(d) for d in distances[:self.k]] weighted_votes {} for i in range(len(k_nearest_labels)): label k_nearest_labels[i] if label in weighted_votes: weighted_votes[label] weights[i] else: weighted_votes[label] weights[i] prediction max(weighted_votes, keyweighted_votes.get)4.2 参数调优加权函数中的a和b参数需要调优a防止距离为0时分母为0b控制权重衰减速度我通常用网格搜索寻找最佳参数组合。在MNIST数据集上加权KNN通常能比标准KNN提高0.5%-1%的准确率。5. 构建完整的手写数字识别系统5.1 图像预处理管道实际应用中我们需要处理各种来源的手写数字图像。一个健壮的预处理管道应该包括转为灰度图二值化处理尺寸归一化到28×28像素值归一化def preprocess_image(image_path): img Image.open(image_path).convert(L) img img.resize((28, 28)) img np.array(img).reshape(1, -1) img img / 255.0 # 归一化 return img5.2 模型持久化训练好的模型可以保存到磁盘import joblib joblib.dump(knn_model, mnist_knn.pkl)加载时model joblib.load(mnist_knn.pkl)5.3 构建简单GUI用PyQt5可以快速构建一个GUI应用from PyQt5.QtWidgets import (QApplication, QWidget, QVBoxLayout, QPushButton, QLabel, QFileDialog) class DigitRecognizerApp(QWidget): def __init__(self): super().__init__() self.model joblib.load(mnist_knn.pkl) self.init_ui() def init_ui(self): self.setWindowTitle(手写数字识别) layout QVBoxLayout() self.btn QPushButton(选择图片) self.btn.clicked.connect(self.load_image) self.result_label QLabel(识别结果: ) layout.addWidget(self.btn) layout.addWidget(self.result_label) self.setLayout(layout) def load_image(self): filename, _ QFileDialog.getOpenFileName() if filename: img preprocess_image(filename) pred self.model.predict(img) self.result_label.setText(f识别结果: {pred[0]})这个GUI虽然简单但包含了完整的功能。我在第一个版本中忘了添加异常处理当用户选择非图片文件时程序会崩溃这是个值得注意的细节。6. 实际应用中的挑战与解决方案6.1 处理倾斜和扭曲的数字现实中的手写数字往往不规整。我遇到过几个典型问题数字倾斜笔画粗细不均背景噪声解决方案包括使用图像处理技术如形态学操作增强数据增强生成更多训练样本采用更鲁棒的特征提取方法6.2 性能瓶颈KNN有两个主要瓶颈预测速度慢内存占用高对于生产环境我通常会使用近似最近邻算法如Annoy部署时使用更高效的实现如Faiss对数据进行聚类预处理6.3 与其他算法的对比虽然KNN简单但在某些场景下它的表现可以媲美更复杂的模型。我曾经在银行支票识别项目中对比过KNN准确率96.2%SVM准确率97.8%CNN准确率99.1%虽然CNN效果最好但KNN的实现和调参要简单得多。对于快速原型开发KNN仍然是个不错的选择。

更多文章

前端开发 2026/4/10 23:00:10

Paint-board选择模式完全解析：图层管理、透明度设置与对象编辑

Paint-board选择模式完全解析：图层管理、透明度设置与对象编辑【免费下载链接】paint-board 🎨 A powerful multi-end drawing board that brings together a lot of creative brushes to experience a whole new range of drawing effects! 项目地址…

XXMI启动器：一站式管理二次元游戏模组的终极解决方案【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher 还在为多款热门二次元游戏的模组管理而头疼吗？XXMI启…

张开发

前端开发 2026/4/10 22:39:38

AI智能二维码工坊集成实践：与低代码平台如Mendix对接教程

AI智能二维码工坊集成实践：与低代码平台如Mendix对接教程 1. 引言：当二维码遇上低代码，效率革命开始了想象一下这个场景：你正在为一个零售客户搭建一个库存管理系统。客户需要为仓库里的每一件商品生成一个唯一的二维码&#x…

张开发

从零实现KNN：构建手写数字识别引擎

最新文章

7-Zip-JBinding终极指南：在Java中无缝集成7-Zip压缩解压能力

孤能子视角:类比两例，教育行动计划，以及RHIC中的虚粒子

碧蓝航线Alas自动化脚本：24小时智能托管你的碧蓝航线游戏体验

AI逆向实战：构建adb与frida的MCP工具链赋能Cursor自动化分析

SRADio：面向嵌入式平台的GFSK包无线电通信库

免费好用的电脑搜索软件推荐-官方下载地址——强烈w推荐

推荐文章

LeetCode 700. Search in a Binary Search Tree 题解

Design Tokens：设计系统的 DNA

老旧设备重生：OpenCore Legacy Patcher系统焕新全指南

得意黑Smiley Sans字体高效部署实战指南

毕设日志26.4.4（2）:ds3231画板细节，中断引脚接法，去耦电容

LeetCode 92. Reverse Linked List II 题解

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

Paint-board选择模式完全解析：图层管理、透明度设置与对象编辑

PacketSender Wake-On-LAN功能详解：远程唤醒电脑的完整方案

RoundCornerProgressBar自定义指南：颜色、渐变、图标与文本的完美结合

终极风扇控制指南：如何用FanControl解决Windows电脑散热难题

海南大学交友平台登录页开发实战day4（解决python传输并读取登录信息的问题）

从原理图到PCB：光耦、容耦、磁耦的电路设计与布局避坑指南（附AD/立创EDA实例）

收藏！2026年AI时代，普通程序员如何借助AI实现快速转型与职业新生？

基于扩展卡尔曼滤波算法EKF的锂电池SOC动态估算：考虑充放电倍率与环境温度的综合辨识

CSS如何设置背景图片尺寸覆盖_使用background-size-cover

Bypass Paywalls Clean：数字内容访问的智能解决方案

XXMI启动器：一站式管理二次元游戏模组的终极解决方案

AI智能二维码工坊集成实践：与低代码平台如Mendix对接教程

从零实现KNN：构建手写数字识别引擎

最新文章

7-Zip-JBinding终极指南：在Java中无缝集成7-Zip压缩解压能力

孤能子视角:类比两例，教育行动计划，以及RHIC中的虚粒子

碧蓝航线Alas自动化脚本：24小时智能托管你的碧蓝航线游戏体验

AI逆向实战：构建adb与frida的MCP工具链赋能Cursor自动化分析

SRADio：面向嵌入式平台的GFSK包无线电通信库

免费好用的电脑搜索软件推荐-官方下载地址——强烈w推荐

推荐文章

LeetCode 700. Search in a Binary Search Tree 题解

Design Tokens：设计系统的 DNA

老旧设备重生：OpenCore Legacy Patcher系统焕新全指南

得意黑Smiley Sans字体高效部署实战指南

毕设日志26.4.4（2）:ds3231画板细节，中断引脚接法，去耦电容

LeetCode 92. Reverse Linked List II 题解

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南