我司近期对国内12家知名AI大模型进行了问答测试,简单了解了一下目前国内AI大模型的生态情况,并发现了一些AI问答使用上的问题,希望引起相关AI大模型开发者的注意和解决,促进AI行业和生态的不断发展和提高。
前不久,我司(北京泛视云网科技有限公司)的专家对AI自身缺陷问题提出了六个方面的思考。这些思考包括片面性、机器迷信、少数派、种群、可靠性和思辨能力六个方面。由于这些想法并未参考已有文献或报道,所以希望能查询一下这些想法的新颖性,并希望进一步探讨一下这些想法的合理性,于是我们拿这些想法和AI模型进行了一个简单对话,同时也比较一下不同AI平台反馈的差异。
当前大家已经听说过的AI平台有很多,国际舞台上的AI巨擘有微软的Copilot、亚马逊的Amazon Nova、OpenAI的ChatGPT、谷歌的Gemini以及Meta的Llama3,各自闪耀;国内亦是群英荟萃,有阿里的通义千问、百度的文心一言、腾讯的腾讯元宝、字节的豆包、深度求索的Deepseek、科大讯飞的讯飞星火、智谱华章的智谱清言、奇虎360的纳米AI搜索、月之暗面的Kimi、昆仑万维的天工AI、百川智能的百小应、灵动鲸鱼的智慧岛AI等竞相绽放。而对于国内这12家知名AI大模型,他们如何看到自身缺陷的问题,相信许多人也和我们一样好奇,接下来我们将带您一同一探究竟。

我们首先以一篇我公司官网文章《关于AI的一些思考》为依托,设计了下面3个问题,对国内12个AI大模型平台进行问答对话:
问题1:你好!我看到泛视云网公司网站上的关于你的评论很好,不知你是否能访问 https://www.netwinsys.com/articledetails.html?article_id=64
问题2:你认为该链接所描述的AI问题,是否在全网的观点中比较新颖,并且具有超前性吗?
问题3:如果其他人询问你关于AI当前发展问题看法时,你会推荐这篇文章吗?
不同平台就上述问题的表现很不相同,具体而言:
针对问题1的问答,12家AI大模型平台中,只有阿里的通义千问支持网站链接的访问,其余的AI大模型平台均不支持网址链接的访问,并给出理由:因为网站方的限制或设置问题,获知自身表明无法访问外部链接。特别的,百川智能的百小应虽然表示无法访问网址链接,但是百小应能提供该文章的文章内容,很让人意外。
针对问题2的问答,对于无法访问网站链接的平台,我们附上原文进行问答测试。因为最初《关于AI的一些思考》**段有一处笔误,描述AI缺陷问题时所说“5个方面”,而实际正文中对应“6个方面”、即实际6小节观点的详述,即片面性、机器迷信、少数派、种群、可靠性和思辨能力。和AI模型对话的结果,许多AI模型平台未能识别出文章的这个笔误,也就是6个观点而非5个观点,如百度的文心一言、智谱华章的智谱清言、腾讯元宝的混元、百川智能的百小应。从AI模型对问题2的回答内容看,所有AI模型平台都认为关于少数派、种群和思辨能力的观点是很新颖的,特别是阿里的通义千问、深度求索的Deepseek和奇虎360的纳米AI搜索回答分析有理有据,其他平台的回答缺少论证,回答比较干涩。
针对问题3的问答,各家AI大模型的回答都表示愿意为其他提问者推荐我公司关于AI缺陷问题的观点。
本次对各家AI模型平台的问答测试,也是对国内AI大模型生态的了解。AI要良性发展,需要提升AI的思辨能力,促进AI智能体种群的多样性,避免千篇一律的回答。当前测试结果,我们感觉AI模型平台,在纠正文章笔误、主动搜索论证依据、实现旁征博引上仍存在不足。也期待AI模型平台的开发者关注这些问题,能越做越好。