分类: 术→技巧

Python执行时间的可视化

在前面的文章Python标准库之性能优化中学习到了统计Python代码执行时间的工具。今天要学习的是一些其他的工具。 SnakeViz SnakeViz简介 SnakeViz 是一个用于可视化 Python 代码性能分析结果的工具。它是基于 Pyt…

术→技巧, 研发 ·

初步认识RPC框架gRPC

gRPC简介 gRPC 是一个现代化的、高性能的 远程过程调用(Remote Procedure Call, RPC)框架,由 Google 开发并开源。它基于 HTTP/2 协议,使用 Protocol Buffers(protobuf)作为接口定义语言(IDL)和数据序列化…

数据, 术→技巧 ·

Python读写MDict词典文件

MDX/MDD 文件格式简介 MDX和MDD是字典程序MDict使用的文件格式,其中MDX 文件用于存放定义,而MDD用于存放其他资源文件,比如图片,发音,虽然存放的内容是不一样的,但是两种文件的结构是一致的。 MDX 和 MDD …

术→技巧, 研发 ·

大数据与Hadoop的生死

现在再写这篇文章感觉有些不合时宜,目前,貌似很少人再讨论大数据,也很少人再讨论Hadoop。整理这篇文章,是为了探寻最新的技术方向。 新技术替代的组件 Hadoop技术栈的许多组件已经被功能更强、性能更高的新技…

数据, 术→技巧, 研发 ·

微服务与模块化单体架构

什么是微服务? 微服务(Microservices)是一种软件架构风格,将一个应用程序划分为一组小型的、独立运行的服务。每个服务都专注于完成一种特定的功能,可以独立开发、部署和扩展。这种架构与传统的单体应用(Mono…

术→技巧, 研发 ·

SHAP数据的导出与可视化

在使用SHAP对模型特征进行可视化输出的时候,会遇到输出的图形格式与预期的不符。以下面的图为例,比如是类别型特征时,默认的展示方式可能有些怪。 比较方便的解决方案是将数据导出为Pandas的DataFrame,然…

数据, 术→技巧 ·

LightGBM的模型保存

平时在使用LightGMB,需要保存训练好的模型。以下是梳理的几种方式: 使用 LightGBM 自带的 save_model 方法 import lightgbm as lgb # 假设已经训练好的模型是 model model = lgb.LGBMClassifier() mod…

Python大数据处理工具之PySpark

PySpark简介 PySpark 是 Apache Spark 的 Python API,它使得 Python 开发者能够使用 Spark 的分布式计算能力进行大规模数据处理和分析。PySpark 提供了与 Scala 和 Java API 类似的功能,并且与 Python 生态系统…

Python网页抓取包requests-html

requests-html简介 requests-html 是一个用于网页抓取和解析的 Python 库,由 Kenneth Reitz 创建,旨在为开发者提供一个强大且易用的工具来处理 HTML 内容。与传统的网页抓取库不同,requests-html 集成了对现代…

集中式日志管理系统Sentry

Sentry简介 Sentry 是一个流行的开源实时错误监控工具,主要用于应用程序的日志监控和错误跟踪。它能够帮助开发者快速识别、诊断和修复在生产环境中出现的问题。 以下是 Sentry 的一些主要特点和功能: …

术→技巧, 研发 ·