通过测试驱动的用户内容形式化进行交互式代码生成

预先训练的大型语言模型(LLMs),如OpenAI Codex,在通过从非正式的自然语言(NL)意图中产生自然的代码来实现编码的重要方面显示出巨大的潜力。.然而,产生的代码在满足用户意图方面没有任何正确性的保证。.事实上,很难定义一个正确性的概念,因为自然语言可能是模糊的,而且缺乏正式的语义学。.在本文中,我们为解决上述问题迈出了第一步,提出了测试驱动的用户意图形式化(TDUIF)的工作流程,它利用轻量级的用户反馈来共同(a)将用户意图形式化为测试(部分规范),和(b)生成符合正式用户意图的代码。.为了在不需要用户参与的情况下对算法进行可扩展的大规模自动评估,我们描述了如何使用一个参考解决方案来高保真地模拟用户的互动。.我们还描述并实现了几个算法组件的替代性实现(包括对一组测试进行变异和排序),可以组成对TDUIF问题的高效解决方案。.我们开发了一个TICODER系统,实现了TDUIF的几种解决方案,并比较了它们在MBPP学术代码生成基准上的相对效果。.在MBPP上使用OpenAI Codex LLM,我们的结果是令人鼓舞的:我们的最佳算法将pass@1的代码生成准确率指标从48%提高到了100%。.39%至70.单一用户查询时为49%,最高可达85%。.48%,有多达5个用户查询.第二,我们可以在平均1小时内生成一个与用户意图一致的非琐碎的功能单元测试。.69个用户查询90个.这个数据集的40%的例子.

《Interactive Code Generation via Test-Driven User-Intent Formalization》

论文地址:http://arxiv.org/abs/2208.05950v1

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章