所有文章

自然语言分析之汉字转拼音

在自然语言的处理中语义分析中,除了需要拆解字形外,字音有时也能表示含义。另外,在搭建搜索引擎时在搜索词query分析是也会的用到汉字转拼音或拼音转汉字的场景。 Python已经有很多包支持类似的功能,整理出来…

器→工具, 开源项目 ·

策略产品我的认识与理解

什么是策略产品? 产品经理的一个经典定义是产品的CEO,是为产品结果负责的人。随着互联网的发展,交互方式已经形成用户习惯,产品的竞争从前端交互设计的战场转移到了内部系统的战场,而这也导致策略产品经理有更…

基于决策树的特征重要性评估

在日常的建模过程中常常需要特征进行筛选,选择与模型相关度最高的特征,避免过拟合。通常使用的最多的方法是决策树中的feature_importance。 scikit-learn决策树 scikit-learn决策树类中的feature_importances_属…

数据, 术→技巧 ·

Jupyter学习笔记:IPython魔法命令

Jupyter与IPython的关系 IPython 是个比默认的 Python Shell 好用得多的 Python 交互命令行界面,支持变量自动补全、自动缩进、Bash Shell 命令,还内置了许多很有用的功能和函数。大大提高交互式计算和软件开发的…

器→工具, 工具软件 ·

自然语言分析之汉字拆解

汉字是记录汉语的文字。汉字对发展中华民族的优秀文化起了重大的作用。汉字是世界上最古老的文字之一。汉字以象形字为基础,形、音、义、结合于一体,成为独特的方块形的表意体系的文字。 汉字的特点: 汉字的…

Learning to Rank算法学习之GBRank

GBRank是一种pair-wise的学习排序算法,他是基于回归来解决pair对的先后排序问题。在GBRank中,使用的回归算法是梯度提升数GBT (Gradient Boosting Tree) 算法原理 Learning To Rank需要解决的问题是给定一个Query…

推荐系统:从千人千面到千域千面

谈到推荐系统,很多人的印象中是“个人性推荐”和“千人千面”。关于“千域千面”应该很少人提及,主要能用到的场景不多,先前有想过在酒店场景上应用,但是由于各种原因最终没有尝试。以下是高德地图在“千域千面”的一些…

Matplotlib初级入门教程

Matplotlib简介 MATLAB MATLAB是Matrix&Laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国Mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。 它将数值分析、…

主题模型LDA(Latent Dirichlet Allocation)初探

在潜在语义分析LSA的文章中对LDA有一些简单的介绍,今天的目标是对LDA进行相对深入的了解,大致搞明白其原理。 LDA简介 在机器学习领域中有2个LDA: 线性判别分析(Linear Discriminant Analysis),主要用于降维和…

网站URL设计远没那么简单

URI和URL及URN URL大家都比较熟悉,其他两个词就比较陌生了。URI、URL和URN是识别、定位和命名互联网上的资源的标准途径。1989年Tim Berners-Lee发明了互联网(World Wide Web)。WWW被认为是全球互连的实际的和抽…

术→技巧, 研发 ·