ChatGPT中文性能测评与风险应对

被引：135

作者：

张华平

李林翰

李春锦

机构：

[1] 北京理工大学计算机学院

来源：

数据分析与知识发现 | 2023年 / 7卷 / 03期

基金：

北京市自然科学基金;

关键词：

语言模型; ChatGPT; 人工智能;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理]; TP18 [人工智能理论];

学科分类号：

081203 ; 0835 ; 081104 ; 0812 ; 1405 ;

摘要：

【目的】简要介绍ChatGPT的主要技术创新，使用9个数据集在4个任务上测评ChatGPT的中文性能，分析ChatGPT潜在的风险以及中国应对策略建议。【方法】使用ChnSentiCorp数据集测试ChatGPT和WeLM模型，EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan，发现ChatGPT在情感分析任务上与国产大模型差距不大；使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型，ChatGPT均优于WeLM；使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解，C3数据集进行常识性的机器阅读理解，发现ERNIE 3.0 Titan在该任务中优于ChatGPT；使用WebQA和CKBQA数据集进行中文闭卷问答测试，发现ChatGPT容易产生事实性错误，与国产模型差距较大。【结果】ChatGPT在自然语言处理的经典任务上表现较好，在情感分析上具有85%以上的准确率，在闭卷问答上出现事实性错误的概率较高。【局限】将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT，并不清楚其在其他情况下的表现。由于后续版本的迭代更新，ChatGPT评测结果具有一定的时效性。【结论】ChatGPT很强大但仍然存在一些缺点，研发中国化的大模型应以国家战略需求为导向，并且注意语言模型的风险和局限。

引用

收藏

页码：16 / 25

页数：10

相关论文

共 8 条

[1]

ChatGPT: five priorities for research[J] . van Dis Eva A M,Bollen Johan,Zuidema Willem,van Rooij Robert,Bockting Claudi L.Nature . 2023 (7947)

[2]

ChatGPT is fun, but not an author[J] . Thorp H Holden.Science （New York, N.Y.） . 2023 (6630)

[3] Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension [J].

Sun, Kai ;

Yu, Dian ;

Yu, Dong ;

Cardie, Claire .

TRANSACTIONS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 2020, 8 :141-155

[4]

DRCD: a Chinese Machine Reading Comprehension Dataset[J] . Chih-Chieh Shao,Trois Liu,Yuting Lai,Yiying Tseng,Sam Tsai.CoRR . 2018

[5] Long short-term memory [J].

Hochreiter, S ;

Schmidhuber, J .

NEURAL COMPUTATION, 1997, 9 (08) :1735-1780

[6] FINDING STRUCTURE IN TIME [J].

ELMAN, JL .

COGNITIVE SCIENCE, 1990, 14 (02) :179-211

[7]

Rouge:A package for automatic evaluation of summaries. Lin C Y. Text Summarization Branches Out . 2004

[8]

Language models are few-shot learners. Brown T,Mann B,Ryder N,et al. Advances in Neural Information Processing Systems . 2020