所有文章

谈谈数据会说谎

“Lies, damned lies, and statistics” 是一句广为人知的谚语,常被用来批判对统计数据的滥用或误导性使用。 出处与背景 起源争议:这句话的确切出处尚无定论,但普遍认为它源于19世纪的英国政坛。常被…

数据, 术→技巧 ·

评分卡模型Toad简介

评分卡简介 评分卡模型(Scorecard Model)是一种用于预测个人或企业信用风险的统计模型。它主要应用于金融领域,尤其是在信贷风险评估中。该模型通过对用户的特征进行加权评分来评估其信用状况。 评分卡模…

器→工具, 工具软件 ·

多智能体协作框架CrewAI

CrewAI简介 CrewAI是一个基于LangChain构建的多智能体框架,其设计目标是通过促进协作智能,使AI智能体能够无缝协作处理复杂的任务。它专注于协调角色扮演的自主AI Agent,通过使用LLM大语言模型作为协调器来促进…

器→工具, 工具软件 ·

软件开发原则SOLID

SOLID原则是一组面向对象编程中的设计原则,旨在提高软件设计的可维护性、灵活性和扩展性。这些原则由罗伯特·C·马丁(Robert C. Martin)提出,是软件开发中广泛认可的最佳实践。SOLID是五个原则的首字母缩写,每个…

术→技巧, 研发 ·

Scikit-Learn 中的评估指标

先前按照Scikit-Learn的文档整理了一份评估指标,回头看下梳理的非常的技术化,整理完有种自己都不太想看的感觉。今天抽时间再做一次重新的梳理。 分类任务评估指标 混淆矩阵(Confusion Matrix) 分类任务的基…

数据, 术→技巧 ·

不可见Unicode字符标记AI生成内容

自2022年11月推出以来,ChatGPT 一直备受关注。其根据输入内容和上下文提供类似于人类的回应能力,给一些重视原创内容的领域带来了困扰,包括教育、内容营销、出版、新闻和法律等领域。他们最大的问题是“我们如何区…

数据, 术→技巧 ·

数据库的未来:PostgreSQL?

进击中的PostgreSQL PostgreSQL 被称为 "最具吞噬力的数据库" 或 "数据库领域的瑞士军刀",这种说法源于其独特的开源生态、持续进化的技术能力和广泛的应用场景。 我们可以从以下几个角度理解这一观点: …

器→工具, 工具软件 ·

Python特征工程工具Feature-engine

Feature-engine简介 Feature-engine 是一个专门用于特征工程的 Python 库,旨在简化数据预处理和特征构建的流程。其设计兼容 scikit-learn 的 API(如 fit() 和 transform() 方法),支持无缝集成到机器学习管道(…

器→工具, 工具软件 ·

Scikit-Learn系统化学习之列变换

ColumnTransformer 是 scikit-learn 中用于对数据的不同列应用不同预处理步骤的工具,特别适用于处理包含混合类型特征(如数值型、分类型、文本型)的数据集。 ColumnTransformer核心功能与使用场景 核心功能…

数据, 术→技巧 ·

Scikit-Learn超参数调优工具

超参数调优是机器学习模型开发的核心步骤,直接影响模型性能。scikit-learn 提供多种工具帮助高效优化参数。 GridSearchCV Scikit-Learn 的 GridSearchCV 是一种通过穷举参数组合并交叉验证评估性能的超参数…

数据, 术→技巧 ·