卓越飞翔博客卓越飞翔博客

卓越飞翔 - 您值得收藏的技术分享站
技术文章1829本站已运行4109

Python 筛选文章中重复段落的内容

需要把你自己的内容把代码替换掉、请确保你的Python环境中已经安装了scikit-learn库、datasketch库、jieba 库。
 
需要把你自己的内容把代码替换掉、请确保你的Python环境中已经安装了scikit-learn库、datasketch库、jieba 库。

[mw_shl_code=python,true]def find_duplicate_sections(article):
    # 分割成段落
    paragraphs = [p.strip() for p in article.split('\n') if p.strip()]

    # 查找一模一样的段落
    duplicate_sections = {}
    seen_paragraphs = set()

    for i, para in enumerate(paragraphs):
        if para not in seen_paragraphs:
            seen_paragraphs.add(para)
        else:
            if para not in duplicate_sections:
                duplicate_sections[para] = [i]
            else:
                duplicate_sections[para].append(i)

    return duplicate_sections

if __name__ == "__main__":
    # 你的文章内容
    article = """
    这里输入你的文章内容,可以是多段文字。

    段落之间用空行分隔。

    比如:
    第一段内容。
    
    第二段内容。

    第二段内容。  # 这一段就是重复的

    第三段内容。
    """

    # 查找相似的文章片段
    duplicate_sections = find_duplicate_sections(article)

    # 打印重复的文章片段内容
    for para, indices in duplicate_sections.items():
        print(f"重复段落 '{para}' 在以下位置出现:")
        for index in indices:
            print(f"  - 段落 {index}")
[/mw_shl_code]
 
卓越飞翔博客
上一篇: 易语言 一键取软件ICO图标工具
下一篇: Java 基于SSM的新闻视讯项目(半成品)
留言与评论(共有 0 条评论)
   
验证码:
隐藏边栏