商务服务
随机地址生成器_Python文章自动生成器火了!没错,它的名字叫“狗屁不通”!...
2024-12-16 17:48

【导读】最近,一个名字相当接地气的“狗屁不通”文章生成器(https://github.com/menzi11/BullshitGenerator)火了,截至目前 GitHub 上 Star 数已超过 7300,还上了微博热搜。这个神器可以生成各种各样奇葩文章,比如领导专用“彩虹屁”万字长文。只有你想不到,没有这个神器写不成的文章。但是,生成的文章确实也是“狗屁不通”。 这次我们就来解读一下,这个生成器是怎么运行的,以此为例,延展探讨一下文本生成未来还有哪些改进的方向。

一、狗屁不通文章生成器

话说,BullshitGenerator 这个项目最初起源于知乎上一位网友的提问:“学生会退会申请六千字怎么写?”,本来很简单的一个问题,但是回答中很多跑偏题的,于是本项目的贡献者之一表示看不下去了,并“随便写了个项目”:狗屁不通文章生成器,帮助这位同学写了一篇退会申请。

用 Python 生成的这篇文章长这样

生成器地址: https://suulnnka.github.io/BullshitGenerator/index.html

但是关于生成器的工作原理,相信很多人是比较感兴趣的。

二、运行原理是什么

据贡献者介绍,本项目最初的目的是用于中文文字 GUI 开发时测试文本渲染,用 Python 3 版本写成,目前共有 7 位贡献者。

鉴于目前 AI 用于文字生成非常流行,这个项目是否也用到了 AI 相关算法呢?答案是否定的,作者表示,BullshitGenerator 没有用到任何自然语言处理相关算法,只是简单地撸代码就可以达到效果。

那 BullshitGenerator 运行的原理是怎样的?AI科技大本营采访了CSDN博客专家@小宋是呢进行解读

“狗屁不通生成器”是一个文本生成器,用来生成一些中文文字用于 GUI 开发时测试文本渲染。由于此项目的目的只是用于 GUI 开发时测试文本渲染,所以对文本的连贯性和含义要求不高,这也就是“狗屁不通”的含义了

<span><span style="font-size: 17px;">if __name__ == &quot;__main__&quot;:</span></span>

<span><span style="font-size: 17px;"> xx = input(&quot;请输入文章主题:&quot;)</span></span>

<span><span style="font-size: 17px;"> for x in xx:</span></span>

<span><span style="font-size: 17px;"> tmp = str()</span></span>

<span><span style="font-size: 17px;"> while ( len(tmp) &lt; 6000 ) :</span></span>

<span><span style="font-size: 17px;"> 分支 = random.randint(0,100)</span></span>

<span><span style="font-size: 17px;"> if 分支 &lt; 5:</span></span>

<span><span style="font-size: 17px;"> tmp += 另起一段()</span></span>

<span><span style="font-size: 17px;"> elif 分支 &lt; 20 :</span></span>

<span><span style="font-size: 17px;"> tmp += 来点名人名言()</span></span>

<span><span style="font-size: 17px;"> else:</span></span>

<span><span style="font-size: 17px;"> tmp += next(下一句废话)</span></span>

<span><span style="font-size: 17px;"> tmp = tmp.replace(&quot;x&quot;,xx)</span></span>

<span><span style="font-size: 17px;"> print(tmp)</span></span>

从源码中可以看出,生成文本的方式就是从本地读取到的文本中按照一定规律随机读取,并且替换掉文本中“x”为指定的主题文本,并未使用深度学习方法。不难发现,生成的文本会存在句子不连贯、重复性高的特点。

三、是否能与 GPT 2 结合

issue 中有人发表了对这个项目的评价

个人觉得“狗屁不通生成器”与“GPT”结合意义不大,这两个项目的目标和特点差异很大。“狗屁不通生成器”是为了快速用来生成一些中文文字用于 GUI 开发时测试文本渲染,而“GPT”文本生成器目标是生成高质量连贯文本,“GPT”的特点是模型大速度慢质量高,并不满足“狗屁不通生成器”的设计需求。

GPT 2 是 OpenAI 推出的一个中文生成模型,由加拿大工程师 Adam King 制作的网站上,任何人都能调教简化版的 GPT-2,它能够识别从新闻、歌词、诗歌、食谱、代码的各种输入,甚至还为《复仇者联盟》写了一个细节丰富的续集,内容可读性相当高。

开源地址: https://github.com/openai/gpt-2。

作为 GPT 2 分段发布中的最后一轮,此次公开的完整 GPT-2 包含 15 亿条参数,其中包含用于检测 GPT-2 模型输出的全部代码及模型权重。

当然,关于 GPT 2 的讨论仍在继续,比如它的实用性,生成假新闻被滥用引发的安全问题等,都是后续还有待改善的关键点。

此外,GPT 2 还有一个中文版本,相比之下,GPT2 与 BullshitGenerator 不同之处在于前者使用了 BERT 或 BPE 编译器,但同样不需要算法基础,只要简单 clone 运行即可,技术上的实现难度更大一些。

“GPT”是比较标准的自回归语言模型了,Transformer 出现前都是通过 RNN 的方法,之前比较火的“CharRNN”深度学习作诗与作曲都属于这个范畴。“GPT”将 Transformer 替换了 RNN,使得提取特征的能力与运算速度都得到很大提升,当然使用大规模数据训练模型也是“GPT”效果好的一个重要因素。

相较于“GPT”,“狗屁不通生成器”实现就简单很多,主要代码就几十行,基本上只用到了Python 编程技术。体现在文本的连贯性和含义上,虽然生成文本的质量不高,但它也满足了生成一些中文文字用于 GUI 开发时测试文本渲染的要求。

GPT2 中文项目:https://github.com/Morizeyao/GPT2-Chinese

四、文本生成的未来

GPT 2 的横空出世让大家看到了 AI 在文本生成方面的潜力。正如 Open AI 官博所说,虽然 GPT 2 还面临检测等方面的挑战,但它的潜力还很大, Open AI 表示,未来这个模型还将继续进行改进,他们期望语言模型能够在性能上有更大的提升,以此提供更高的输出质量和准确性。

BullshitGenerator 项目也公布了下一步计划:

  1. 防止文章过于内容重复
  2. 加入更多啰嗦话.
  3. 加入马三立<开会迷>里的内容
  4. 加入手写体直接渲染出图片的功能(仅仅用于测试本人的打印机是否工作正常, 请勿做它用).

大胆设想一下,日后类似于 BullshitGenerator 这样的文本生成器将进一步改进,那么是否在没有 AI 算法的参与下,仅凭简单的代码就能够生成高质量的文本(虽然可能性几乎为零,但如果可以实现将是颠覆性的成果?从另一个思路来讲,以 GPT2 为代表的 NLP 模型现在已经可以生成以假乱真的文本,未来又该如何克服目前的挑战,生成更高质量的作品,同时能够保证安全?是否未来有一天,文本生成技术或许真的会取代一部分人类的工作?这些问题都值得深思。

本文特邀专家 :小宋是呢 @CSDN博客专家&知乎深度学习专栏作家(微信公众号 ID:aideepmiss)。在校前两年半时间,获得省级一等奖(以上)奖项十次,毕业时,第一作者授权实用新型&发明专利共计二十余项。

    以上就是本篇文章【随机地址生成器_Python文章自动生成器火了!没错,它的名字叫“狗屁不通”!...】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/8378.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
运营师抖音代运营
运营师抖音代运营:掌握流行短视频潮流的神奇职业短视频平台已经成为人们娱乐、学习和社交的重要方式。在众多的短视频平台中,抖
微短剧,2024年“最大赢家”? | 年终盘点
2024,短剧行业大变样。作者 | 张语格编辑 | 趣解商业文娱组“互联网大厂争相入局。”“98%的短剧制作方都在亏钱。”“用户被免
同类第一!20%弹性的人工智能 ETF 科创(588760)今日上市,一键布局科创板优质AI龙头
  最新公告内容显示,广发上证科创板交易型开放式指数投资基金(基金代码:588760;扩位简称: ETF 科创)已于 2025 年 1 月 1
如何使用关键词排名提升工具
随着互联网的飞速发展,自媒体行业逐渐成为热门领域,许多自媒体作者希望通过优质内容吸引更多粉丝,提高自己的知名度,在众多竞
2025快手广告跳转微信如何实现?配置详解
​​快手作为中国领先的短视频平台,拥有庞大的用户基础和高度的用户活跃度,为品牌提供了一个巨大的流量池。然而,如何将这些流
Tiktok专题
随着TikTok在全球范围内的爆发式增长,越来越多的品牌和企业开始关注这个平台,并寻找适合他们的产品来进行市场推广。想要在TikT
什么兼职最赚钱最快速?盘点适合负债者的10个副业
在当下经济环境下,许多人可能面临负债的压力,包括买房、买车等等,寻找一份能够快速赚钱的兼职成为了许多人的迫切需求。那么,
Google回击设计_今日google搜索Google设计教程
摘要:Google回击设计,今日google搜索Google设计教程,新片场素材小编舒子颖Google回击设计,今日google搜索Google设计教程相关内
关键词排名上不去怎么办(关键词排名靠前原因)
本文目录导读:关键词选择外链建设持续优化注意事项随着自媒体行业的不断发展,越来越多的创作者加入了这个大家庭,在激烈的竞争
A股市场昨有所回落 小红书概念股继续走强
每经记者:杨建    每经编辑:赵云1月14日,A股市场全天高开高走,三大指数放量大涨。1月15日,A股市场有所回落。截至收盘,