机器学习
机器学习基础
- 有监督学习、无监督学习与强化学习
- 向量间距离的计算
- 信息的度量:信息熵的理解与应用
- 《人工不智能》读书笔记
- 人工智能的能与不能
- 统计学基础之推断统计
- 统计学基础之参数估计
- 统计学基础之假设检验
- 统计学基础之摘要统计
- 统计学基础之概率分布
特征工程
- 特征转换:
- 数据降维:
- 特征选择:
- 数据抽样:
模型调参
- 最优模型选择准则:AIC和BIC
- 算法模型自动超参数优化方法
- Optuna自动调参使用指南
- 机器学习中的欠拟合和过拟合
- 机器学习可解释性工具:SHAP
- Scikit-Learn学习之交叉验证
- Scikit-Learn的模型评估指标
- 超参数调优之贝叶斯优化
模型部署
聚类
- 聚类与分类的不同
- 聚类算法评估指标
- 常见聚类算法
- 一维数据聚类方法
- K-Means及其变种
- K-Medoids
- Mean Shift
- ISODATA
- DBSCAN
- Label Propagation
- Affinity Propagation (AP)
- Hierarchical Clustering
- Spectral clustering
- Fuzzy C-Means
分类
- 分类与回归的区别
- 分类算法评估指标
- 常见分类算法:
回归
- 回归模型评估指标
- 常见回归算法:
关联分析
优化算法
深度学习
时间序列分析
- 趋势判断
- 常见时间序列预测方法
- 因果分析
- 异常识别
- 时序分析中的差分变换
自然语言处理
- 中文分词
- 词性标注
- 词向量
- 文本摘要
- 文本分类
搜索排序
- Lucene
- Elasticsearch
- 排序算法
- 项目学习:美团搜索广告排序实践
- 知名网站热门排序算法分析
- 游戏排名算法:Elo、Glicko、TrueSkill
- 排序优化算法Learning to Ranking
- Learning to Rank算法学习之GBRank
推荐系统
- 推荐算法之矩阵分解
- 矩阵分解之SVD奇异值分解
- 矩阵分解之交替最小二乘ALS
- 推荐算法之贝叶斯个性化排序BPR
- 腾讯Item-based CF实时推荐算法
- 腾讯视频实时推荐系统实践
- Python推荐系统库:Surprise
- implicit实现协同过滤实时推荐系统
- 小红书首页feed流推荐逻辑探究
- 抖音推荐机制与算法的研究
- 用户画像的理解与反思
- 用户体系搭建之ID-Mapping
- 推荐系统:从千人千面到千域千面
- 推荐系统之协同过滤
- 使用Excel搭建推荐系统
规则引擎
用户画像
图计算&图数据库
- 图计算应用:京东JoyGraph
- 图数据库应用:蚂蚁金服GeaBase
- 分布式图数据库TigerGraph
- 图查询语言PGQL
- 图计算框架Apache TinkerPop
- 图数据库Neo4j初探
- Google大规模图计算框架Pregel
- 开源图计算框架Apache Giraph
数据挖掘
大数据通识
- Google GFS
- Google BigTable
- Google MapReduce
- Google分布式系统Dremel
- Hadoop
- HIVE
- Impala
- Presto
- 分布式理论CAP与BASE
- 现代数据架构Open Data Lake(ODL)
- 数据处理方法ETL与ELT的区别
- Google搜索引擎架构Caffeine
- 大数据与Hadoop的生死
- 大数据统一编程模型Apache Beam
大数据生态
- 文件与存储:
- 数据库&数据仓库:
- 什么是NewSQL数据库?
- OLAP:
- 分布式:
- 其他类型:
- 存储格式:
- 计算平台&查询引擎:
- 管理平台:
- ETL:
- 开源 ETL 工具 Pentaho Kettle
- 开源 ETL 工具 Singer.io
- 分布式数据集成平台 SeaTunnel
- 云数据集成工具 CloudQuery
- 集群管理框架 Apache Helix
- 开源集成框架 Apache Camel
- 开源数据集成平台 Airbyte
- 开源数据转换和建模工具dbt
- Python工作流管理系统Snakemake
- 命令行数据迁移工具sling-cli
- Python工作流编排管理工具Prefect
- 开源工作流框架Nextflow
- Spotify开源数据管道编排工具Luigi
- 开源工作流编排工具Kestra
- 数据科学项目流程工具Kedro
- 数据和机器学习工作流平台Flyte
- 开源任务调度系统DolphinScheduler
- 开源数据加载工具DLT
- 开源数据工作流编排工具Dagster
- 机器学习工作流平台Kubeflow
- 数据科学工作流框架Metaflow
- 开源批处理工作流调度系统Azkaban
- Kubernetes工作流引擎ArgoWorkflows
- Hadoop作业调度系统Oozie
- 任务编排与调度工具Airflow
- 开源实时数据同步工具ApacheNiFi
- Hadoop数据搬运工具Sqoop
- 异构数据同步工具DataX
- 元数据管理:
- 消息队列:
基础概念
数据分析
- 工具软件
- 数据采集:
- 数据获取:
- 数据探索
- SciPy
- Pandas
- 分析实战
- 其他信息:
- 数据归因:
- 数据验证:
数据可视化
- Maplotlib
- 地理数据可视化
- 可视化工具:
程序开发
C语言
- 编程语言基础:C语言
- C语言之Hello World程序编译
- C语言:控制流语句
- C语言:main()函数正确写法
- C语言:预处理器与宏
- C语言:基本数据类型
- PEP7:C语言风格指南
- C语言学习之标准库
- C语言学习之动态内存管理
- C语言学习之文件操作
- 鸿蒙C语言编程规范
- C语言学习之数组
- C语言学习之结构体
- C语言学习之共用体
- C语言自定义类型之位段
- C语言自定义类型之枚举
- C语言学习之指针
- C语言学习之函数
- C语言学习之关键字
- C语言学习之运算符
- C语言学习之字符串
- C语言学习之存储类
- C语言学习之头文件
- C语言学习之标准库
- C语言学习之C语言版本
- C语言学习之编译
- C语言学习之动态内存管理
- C语言学习之文件操作
- 工具软件:
- 数据结构:
- 华为C语言编程规范
Python
- 语言基础
- 认识Python:起源与发展
- Python学习之基础知识
- Python改进提案:PEP文档
- PEP7:C语言风格指南
- PEP8:Python编码规范
- PEP249:Python数据库API规范v2.0
- PEP257:Docstring书写规范
- PEP324:子进程管理subprocess
- PEP333:Python Web服务器Gateway接口v1.0
- PEP484:类型提示Type Hints
- PEP492:使用async和await语法的协程
- PEP3107:函数注解Function Annotations
- PEP3333:Python Web服务器网关接口v1.0.1
- Python数据结构与时间复杂性
- Python多线程与多进程
- Python逻辑判断True/False的坑
- 如何理解Python装饰器
- Python协程与异步
- Python迭代器与生成器
- 深入学习Python import机制
- 深入理解Python with语句
- Python中的if __name__ == ‘__main__’
- Python内置函数
- Python异常捕获与处理
- Python字符串格式化工具
- Python垃圾回收机制与实现
- Python中break/continue/pass的区别
- Python模块、包、库、框架
- Python学习之面向对象基础
- Python学习之函数
- Python命令行参数的解析
- Python标准库之操作系统接口
- Python标准库之终端处理
- Python标准库之性能优化
- Python标准库之日志记录logging
- Python标注库之IO模块
- Python标准库之文件和目录访问
- Python标准库Unicode工具unicodedata
- Python标准库之文本包装textwrap
- Python标准库之比较序列difflib
- Python标准库之字符串操作string
- Python标准库之结构体struct
- Python标准库之队列queue
- Python标准库学习之枚举enum
- Python标准库之二分查找bisect
- Python标准库学习之堆heapq
- Python标准库之高效数组array
- Python模块:容器数据类型Collections
- Python标准库之容器数据类型Collections
- Python标准库之数字和数学模块
- Python标准库学习之itertools
- Python标准库学习之functools
- Python标准库之types
- Python标准库之操作系统接口
- Python标准库之operator
- tqdm: Python代码进度显示工具
- Python日期与时间处理详解
- Python error Unable to find vcvarsall.bat
- Python pip源与Anaconda conda源修改
- Python日志模块logging的使用
- Python HTTP请求包
- Python虚假数据生成工具Faker
- Python管道工具Pipe
- Python堆栈跟踪信息traceback
- Python第三方日志工具盘点
- Python身份认证之OAuth与JWT
- Python图片字符识别工具OCR盘点
- Python友好格式URL转换工具
- Python生成唯一标识符
- Python收发Email电子邮件
- Python实现的数据库
- Python标准库之导入模块
- Python数据加密和安全
PHP
JAVA
HTML
JAVASCRIPT
CSS
复杂度算法
数据库
- MySQL
- PostgreSQL:
- 如何理解数据库的Schema模式
- 树形结构数据数据库存储方案
- 知乎话题结构数据库设计
- Typecho博客系统数据库设计
- Hive SQL CURRENT_DATE导致的datediff错误
- SQL日期/时间处理函数
- 分布式全局唯一ID生成方案
- 通俗易懂理解数据库概念
- 数据库事务与ACID
- 数据查询语言PRQL
- 数据查询语言Malloy
- 数据库设计软件的盘点
- 轻量级数据库SQLite
- 内存数据结构存储Redis
- 数据库设计中的三大范式
- 如何选择合适的数据库类型
加密解密
地理数据与空间索引
- 地理信息系统之瓦片坐标系
- 空间索引之GeoHash
- 空间索引之Uber H3
- 空间索引之Google S2
- 经纬度转城市反地理查询系统搭建
- 多经纬度坐标中心点计算方法
- 城市运营之商圈商业区数据完善
- 开源地理数据OpenStreetMap的使用
- 经纬度距离计算及优化方案
- 地理空间数据库盘点
- 基于网格的经纬度轨迹聚类
- Python地理空间数据工具盘点
- 地理空间数据格式简介
WEB开发
- 账户与密码
- 网关协议CGI、FastCGI、WSGI的区别
- 富文本编辑器的不同流派
- 网站开发图片格式对比与选择
- 字符串哈希(hash)算法梳理
- Session,Cookie,LocalStorage与SessionStorage
- 网站URL设计远没那么简单
- 微信二维码扫码登录的原理
- 通信协议
- RESTful API设计指南
- 微服务:
- 二维码原理与使用
- CPU架构基础知识点
- 如何打造一款开源的博客系统
- JSON可视化工具盘点
- 列表流、瀑布流、卡片流与Feed流
- WEB开发之HTML语义化
- 内容分发网络CDN
- Go语言的初步了解与学习
- 开源对象存储服务:Minio
- 使用ELK监控Nginx日志
- 同步Wordpress到微信公众号
- Windows Node.js+Yarn的安装与配置
- 开源文档生成工具Sphinx
- 集中式日志管理系统Sentry
APP
- App、小程序、快应用与AppClips
- Android应用:apk文件反编译
- Android逆向之unidbg调用.so文件
- Android反编译之.so文件
- 淘口令的技术实现
- App深度链接与延迟深度链接
- 移动域名解析HTTPDNS
即时通讯
- Web应用中的实时消息技术
- 通讯协议:
- 案例学习:
- 聊天机器人
运维
开源工具
工具软件
硬件
Windows
- Cygwin/MinGW/MSys/WSL区别与联系
- Windows Linux子系统安装Anaconda
- Windows、Manjaro双系统安装
- MongoDB在Windows安装与使用
- 电脑C盘空间空间清理方法
- Windows下Office版本的选择
- 放弃搜狗,Windows输入法推荐
- 免费的在线词典工具
- 词典工具欧路词典的替代方案
- 英语翻译工具欧路词典
- Windows下的本地视频播放器
- 免费的SSH客户端推荐
- Obsidian使用之Markdown
- Chrome开发者工具入门教程
Linux
- 桌面/服务器如何选择Linux发行版?
- Linux终端/图形界面与桌面环境
- Linux安装之swap交换分区大小设置
- Linux系统启动速度优化工具systemd-analyze
- Linux定时任务Crontab
- Linux防火墙FirewallD与iptables
- Linux软件包管理系统
- Linux软件安装命令,CMMI流程
- Linux终端文件类型与颜色
- Linux下文件的压缩与解压缩
- Linux文件权限查看与修改
- Linux用户和用户组管理
- Manjaro Linux安装与使用
- Linux/Windows/MacOS文件系统
- Linux文件系统inode详解
- Linux树型结构文件系统
- Linux基础知识:显示管理器
- Linux环境变量的配置
MacOS
服务部署
- 磁盘阵列RAID种类及对比
- 私人Git服务器搭建:Gogs/Gitea
- Ubuntu Server 20.04 WordPress环境安装与配置
- 家庭存储:Gen8折腾记
- ThinkPad W520装机备忘
- ThinkPad X1 Carbon 2018三系统安装
- 操作系统可启动U盘制作工具
- 机器学习环境配置:WLS2+Ubuntu+CUDA+cuDNN
产品与设计
字体
商业模式
产品策略与营销
- 基于供需关系的Airbnb动态定价策略
- 弹性定价原理及Uber动态定价模型
- 基于人性弱点的产品营销
- 心理账户在产品营销的应用
- 价格歧视在酒店收益管理中的运用
- 酒店标签化销售的机会与挑战
- 盲盒是变相赌博OR智商税?
- 张小龙、张一鸣谁能笑傲江湖
- 拼多多砍价背后的逻辑
- 八角行为分析法与广告语(SLOGAN)
- 从消费者行为模式到用户增长模型
- 力场分析:获客、转移和留存
- 《旅行青蛙》火爆原因分析
- 好的产品应有正确的价值观
- 理解认知偏差
- 信息爆炸、推荐、私域与RSS
- 《乔布斯的100条思考》的思考
市场营销
用户体验
产品设计
视觉设计
搜索引擎优化
行业知识
产品思考
- 互联网未来是什么?
- Gartner技术成熟度曲线
- 行程规划产品难在哪里?
- 如何让APP有逛的氛围?
- 内容平台搭建PGC/UGC?
- App“签到/打卡”功能点的思考
- 重新认识电子表格Excel
- 逆向思维:红白机射击游戏的奥秘
- 《植物大战僵尸》成功的奥秘
- 实时策略游戏为什么不流行了?
- ThinkPad是如何走向没落的?
游戏设计
自我提升
- 学习与成长
- 为什么上学?
- 编程,用十年时间来学
- 亚伦斯沃茨:如何让自己更有效率
- 为了效率不应该做的7件事
- 选择的艺术:用数学获取最优选择
- 数据人的修养:次第乞已,还至本处
- 互联网第一课:用好Google
开源许可协议与知识共享许可协议 - 程序员应该遵守的编程原则
- 数据的”有我之境”与”无我之境”
- 沟通技巧:提问的智慧
- 如何成为一名黑客
- 前端大牛 Nicholas C. Zakas 的职业建议
- 重新认识学习金字塔
- 知识管理体系搭建工具盘点
- 笔记整理方法 PARA
- 语言是否会影响认知?
- 活在卓别林的摩登时代
- 如何高效的执行 PDCA 循环
- 技术选型:选择无聊的技术
- 艾宾浩斯遗忘曲线与 Anki
- 程序员的数学之排列组合
- 知识管理中的信息分类
- 数学公式中的希腊字母
- 管理学
- 哲学:
- 书法
- 其他:
- 读书笔记: