论文部分内容阅读
1概念内涵
机器写作,又称自然语言生成,是自然语言处理领域的重要分支,指的是综合运用大数据分析、内容理解和自然语言生成等,实现机器智能生成文本内容的技术。基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等。其应用级产品WordSmith的软件于2007年首次出现,由美国Automated Insights开发。
2 机器写作简要流程
3机器写作的三大主流方式
计算机根据输入的结构化数据(报表、RDF数据等)进行文字创作。该方式能够生成原创稿件,是目前机器写作的主要方式,适用于天气预报、医疗报告、赛事简讯、财经报道等文本的生产。
计算机根据已有的文字素材(例如,已经发表的新闻)进行二次文字创作。该方式能够基于已有稿件创作出不一样的稿件,例如,为一篇新闻生成摘要,对多篇相关新闻进行综述,对一篇新闻进行文字改写等。
计算机可以结合原创与二次创作两种方式进行文字创作,稿件中的一部分内容从结构化数据中直接生成,另一部分内容则从已有文本中进行提炼或改写得到,生成内容更丰富、形式更多样的文本。
4机器写作的各应用领域
知识类应用
速报类应用
资讯聚合类应用
5平行语料缺乏
未来基于深度学习的机器写作需要大规模的平行语料进行训练,而很多应用场景却缺乏此类平行语料,因此有必要探索小数据下的学习机制来解决这个问题。
领域迁移性不足
机器写作生成文本中信息与数据的准确性、文本的可读性不能完全得到保证,而不少应用场景不能容忍文本质量上的瑕疵,因此需要考慮结合更先进的技术来提高所生成文本的质量。
写作质量难以客观评价
机器写作的客观评价指标一般为BLEU和ROUGE,但文章的写作方式多样,每个作者都可以根据同一命题写出内容不一样但质量都很高的文章,未来有必要设计更合理的客观评价指标。
机器写作,又称自然语言生成,是自然语言处理领域的重要分支,指的是综合运用大数据分析、内容理解和自然语言生成等,实现机器智能生成文本内容的技术。基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等。其应用级产品WordSmith的软件于2007年首次出现,由美国Automated Insights开发。
2 机器写作简要流程
3机器写作的三大主流方式
计算机根据输入的结构化数据(报表、RDF数据等)进行文字创作。该方式能够生成原创稿件,是目前机器写作的主要方式,适用于天气预报、医疗报告、赛事简讯、财经报道等文本的生产。
计算机根据已有的文字素材(例如,已经发表的新闻)进行二次文字创作。该方式能够基于已有稿件创作出不一样的稿件,例如,为一篇新闻生成摘要,对多篇相关新闻进行综述,对一篇新闻进行文字改写等。
计算机可以结合原创与二次创作两种方式进行文字创作,稿件中的一部分内容从结构化数据中直接生成,另一部分内容则从已有文本中进行提炼或改写得到,生成内容更丰富、形式更多样的文本。
4机器写作的各应用领域
知识类应用
速报类应用
资讯聚合类应用
5平行语料缺乏
未来基于深度学习的机器写作需要大规模的平行语料进行训练,而很多应用场景却缺乏此类平行语料,因此有必要探索小数据下的学习机制来解决这个问题。
领域迁移性不足
机器写作生成文本中信息与数据的准确性、文本的可读性不能完全得到保证,而不少应用场景不能容忍文本质量上的瑕疵,因此需要考慮结合更先进的技术来提高所生成文本的质量。
写作质量难以客观评价
机器写作的客观评价指标一般为BLEU和ROUGE,但文章的写作方式多样,每个作者都可以根据同一命题写出内容不一样但质量都很高的文章,未来有必要设计更合理的客观评价指标。