创新的量化方法
低功耗、低延迟、低资源
Token数量压缩,降低首token延迟
多芯片协同并行处理
内存使用优化
支持定制调优