Python标准库之比较序列difflib

文章内容如有错误或排版问题，请提交反馈，非常感谢！

Difflib简介

difflib是Python标准库中的一个模块，用于比较序列，尤其是字符串序列。它提供了一些类和函数，可以用于计算两个序列之间的差异，生成差异报告，以及帮助实现文本合并等功能。

产生背景

文本比较需求: 在许多应用场景中，需要比较两个文本文件或字符串以找出差异。例如，版本控制系统需要比较文件的不同版本，文本编辑器需要实现”撤销”功能等。
提供友好的差异表示: 手动比较两个文本的差异可能很繁琐，尤其是当文本很长时。difflib提供了简单易懂的差异表示，类似于Unix中的diff工具。
提高开发效率: Python作为一种高级语言，希望通过提供易用的工具，帮助开发者快速实现复杂的功能。difflib模块就是为了解决文本比较这一常见需求而设计的。

使用场景

文件和文本比较: difflib可以用于比较两个文本文件或字符串，找出它们的不同之处。例如，检查配置文件的变化，比较日志文件等。
生成差异报告: difflib可以生成HTML或文本格式的差异报告，用于显示两个文本之间的变化。
实现文本合并工具: 在需要合并多个文本版本时，difflib可以帮助识别和合并差异。
拼写检查和建议: 通过比较用户输入和词典，difflib可以用于实现简单的拼写检查和建议功能。

Difflib核心功能

SequenceMatcher类

SequenceMatcher类是difflib模块的核心类，用于比较两个序列并找出它们之间的相似性。它可以识别出序列中的匹配子序列、差异和相似度。

SequenceMatcher类的构造方法：

difflib.SequenceMatcher(isjunk=None, a=”, b=”, autojunk=True)

isjunk：可选参数，是一个函数，用于判断某些元素是否可以视为”无用”元素（比如空格）。如果传入None，则使用默认的判断。
a：要比较的第一个序列。
b：要比较的第二个序列。
autojunk：一个布尔值，表示是否自动忽略序列中很长且重复的部分（称为”垃圾”）。如果设置为False，则不忽略这些部分。

SequenceMatcher类的常用方法：

set_seq1(a)和set_seq2(b)：设置或更改要比较的序列a或b。
find_longest_match(alo, ahi, blo, bhi)：在a[alo:ahi]和b[blo:bhi]中找到最长的匹配子序列，返回一个(i, j, k)的元组，分别表示匹配子序列在a中的起始位置、在b中的起始位置和匹配的长度。
get_matching_blocks()：返回一个(i, j, n)的元组列表，其中每个元组代表一个匹配块的起始位置和长度。
ratio()：返回两个序列的相似度，值在0到1之间，1表示完全相同。
quick_ratio()和real_quick_ratio()：快速但较不精确的相似度计算方法，计算速度比ratio()更快，但精确度较低。
get_opcodes()：返回一个操作码列表，描述如何将a转换为b，每个操作码都是一个(tag, i1, i2, j1, j2)元组，表示操作类型及其在a和b中的位置。tag的值可以是以下之一：
- ‘replace’：表示a[i1:i2]被替换为b[j1:j2]。
- ‘delete’：表示a[i1:i2]被删除。
- ‘insert’：表示b[j1:j2]被插入到a[i1:i2]的位置。
- ‘equal’：表示a[i1:i2]和b[j1:j2]是相同的。

SequenceMatcher用法示例：

import difflib

# 要比较的字符串
a = "Hello World"
b = "Hallo World"

# 创建一个SequenceMatcher对象
s = difflib.SequenceMatcher(None, a, b)

# 获取相似度
similarity = s.ratio()
print(f"相似度: {similarity:.2f}") # 输出: 相似度: 0.91

# 获取匹配的块
matches = s.get_matching_blocks()
print(f"匹配块: {matches}") # 输出: 匹配块: [Match(a=1, b=1, size=4), Match(a=6, b=6, size=5), Match(a=11, b=11, size=0)]

# 获取操作码
opcodes = s.get_opcodes()
print(f"操作码: {opcodes}")
# 输出: 操作码: [('replace', 0, 1, 0, 1), ('equal', 1, 6, 1, 6), ('equal', 6, 11, 6, 11)]

Differ类

Differ类用于生成两序列之间的行级差异，并以类似diff工具的方式输出。它生成的输出通常包含标记：

‘-‘表示序列a中的行。
‘+’表示序列b中的行。
‘ ‘表示两序列中相同的行。
‘?’表示下一行的标记，用于指示差异的细节。

Differ类的常用方法： compare(a, b)：比较两个序列，返回差异结果的生成器。

Differ用法示例：

import difflib

# 要比较的序列
a = ["Hello World", "This is a test"]
b = ["Hallo World", "This is test"]

# 创建一个Differ对象
d = difflib.Differ()

# 进行比较
diff = list(d.compare(a, b))
print("\n".join(diff))
# 输出:
# - Hello World
# + Hallo World
#   This is
# - a test
# + test

HtmlDiff类

HtmlDiff类用于生成两个文本序列的差异的HTML表示。它非常适合生成差异报告的网页显示。

HtmlDiff类的常用方法：

make_file(a, b, fromdesc=”, todesc=”, context=False, numlines=5)：生成两个序列的HTML差异文件，带有文件名描述和可选的上下文显示。
make_table(a, b, fromdesc=”, todesc=”, context=False, numlines=5)：生成两个序列的HTML差异表，返回HTML表格的字符串。

HtmlDiff用法示例：

import difflib

# 要比较的序列
a = ["Hello World", "This is a test"]
b = ["Hallo World", "This is test"]

# 创建一个HtmlDiff对象
hd = difflib.HtmlDiff()

# 生成HTML差异
html_diff = hd.make_file(a, b, fromdesc='File A', todesc='File B')

# 输出HTML差异结果
print(html_diff)

实用函数

difflib.get_close_matches(word, possibilities, n=3, cutoff=0.6)

该函数用于从候选列表possibilities中找到最接近word的匹配项。它返回一个包含最接近匹配的列表。

word：要查找的单词。
possibilities：候选单词列表。
n：返回的最大匹配项数目（默认值为3）。
cutoff：匹配度的最小阈值，值在0到1之间（默认值为6）。

get_close_matches用法示例：

import difflib

# 候选单词列表
words = ["apple", "banana", "grape", "orange", "pineapple"]

# 查找最接近的匹配项
matches = difflib.get_close_matches("aple", words)
print(matches) # 输出: ['apple', 'pineapple']

difflib.ndiff(a, b)

该函数用于逐行比较两个序列，并返回一个生成器，生成类似 Differ.compare() 的差异输出。

import difflib

# 要比较的序列
a = ["Hello World", "This is a test"]
b = ["Hallo World", "This is test"]

# 使用 ndiff 进行比较
diff = difflib.ndiff(a, b)
print("\n".join(diff))
# 输出:
# - Hello World
# + Hallo World
# This is
# - a test
# + test

参考链接：

Python标准库之比较序列difflib

Difflib简介

Difflib核心功能

SequenceMatcher类

Differ类

HtmlDiff类

实用函数

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

移动端自动化测试工具Appium

发表回复取消回复

Python标准库之比较序列difflib

Difflib简介

Difflib核心功能

SequenceMatcher类

Differ类

HtmlDiff类

实用函数

Node.Js 版本管理工具nvm-windows

Win 11安装部署OpenClaw教程

移动端自动化测试工具Appium

发表回复 取消回复

发表回复取消回复