招标采购
北京朝阳医院向量化数据预处理服务项目询价采购公告
我院拟对《向量化数据预处理服务》项目按照询价采购方式进行采购。凡有意向参与此次采购的供应商,请携带报价单、营业执照、资质文件复印件并加盖公章,于2024年11月25日上午9:00前交至北京朝阳医院信息中心。
项目名称:《向量化数据预处理服务》
采购人: 首都医科大学附属北京朝阳医院
采购项目最高限价:5万元,超过最高限价的报价,将被取消询价资格。
响应文件提交截止时间及地点:
提交截止时间:2024年11月25日09:00(北京时间)
地点:工体南路8号北京朝阳医院信息中心
在以上截止时间后送达到指定地点的响应文件为无效文件,该文件将被拒收。
项目需求:为了提升在生成式文本模型方面的技术能力和用户体验,现需进行数据脱敏、数据准备、数据向量化等一系列工作。
本项目旨在通过这些步骤,为建立一个高效、安全且用户友好的生成式文本模型系统打好基础。具体要求如下:
1. 数据脱敏
对原始数据中的个人身份信息(如姓名、身份证号、电话号码、联系人信息、地址信息等)进行脱敏处理,确保这些信息无法被重新识别。
对敏感词汇进行脱敏处理,确保这些信息不会泄露。
使用多种脱敏技术,如替换、加密、哈希等,以确保脱敏后的数据仍能保持其原有的语义和结构。
进行脱敏效果验证,确保脱敏后的数据符合相关法律法规的要求。
2. 数据准备
收集来自不同来源的文本数据,包括但不限于医疗文书、护理文书、专业文献等。
清洗数据,去除重复项、纠正错误、处理缺失值等,确保数据的质量。
整理数据,使其符合后续处理的要求,例如统一格式、标准化处理等。
进行数据标注,对部分数据进行人工标注,以便于模型训练和验证。
构建数据流水线,自动化处理数据采集、清洗和整理过程,提高效率。
3. 数据向量化
使用预训练的词嵌入模型将文本数据转换为向量表示。对向量进行归一化处理,以确保它们在同一尺度上比较。
选择合适的词嵌入模型,并根据实际需求进行微调,以提高向量的质量。
验证向量的质量,通过相似度计算、聚类分析等方法评估向量的有效性。
应答人资格要求:
1、在中华人民共和国境内注册,能够独立承担民事责任。
2、遵守国家有关法律、法规、规章,具有良好的商业信誉和健全的财务会计制度。
3、具备对故障设备提供紧急修复的技术能力;具备设备的升级、维护、保养等综合技术支持和实际维护经验。
4、供应商企业经济状况良好,在近三年内无重大经营违法活动。
5、良好的商业信誉和健全的财务会计制度。
6、具备履行合同所必须的设备和专业技术能力。
联系人:何宜楠
联系电话:010-85231654