欢迎您来到腾讯云!积分商城

腾讯云腾讯云论坛

 找回密码
 立即注册
忘了密码?

扫一扫,访问微社区

快捷导航
搜索
查看: 20905|回复: 0

[产品使用] 机智机器学习——数据格式

[复制链接]

426

主题

85

好友

5488

积分

资深攻城师[LV4]

Rank: 4

云币
1869
威望
5488
发表于 2015-12-30 18:52:57 |显示全部楼层 |未分类

机智机器学习——数据格式



目录
  • 1.LDA
  • 2.CNN
    • 2.1 模型训练
    • 2.2 模型预测
    • 2.3 特征提取
  • 3.LR
  • 4.Word2Vec

1.LDA

1)输入数据
一行一个文本,gbk编码。例如:
  习近平在英国议会讲话:中英关系创下多个第一
  国家旅游局接入内地游客香港被殴案调查
  美国中考中国区成绩被取消 因高分太多
2)输出数据
含义如下:


  1. <font face="微软雅黑">*.docDistOnTopic: 主题到文档聚类结果(文档主题分布取top1);
  2.     *.model.others: 训练中所使用的参数;
  3.     *.model.tassign: 训练集tf-idf值;
  4.     *.model.wordmap.txt: 词频统计;
  5.     *.topicDistOnDoc: 主题到文档的分布;
  6.     *.topic_words.txt: 主题到词的分布。</font>
复制代码

2.CNN2.1 模型训练

1) 输入数据
输入数据是一个压缩包,内容是所有图片和对应的索引文件,包括训练集索引文件train.txt,验证集的索引文件valid.txt,标签索引文件label.txt。
压缩包的内容结构:


  1. <font face="微软雅黑">dataset/train.txt
  2. dataset/valid.txt
  3. dataset/label.txt
  4. dataset/image/…</font>
复制代码

图片存放在dataset/image/,子目录结构由用户自定义。
train.txt和valid.txt的格式一样,第一列是图片路径(相对路径,例如dataset/image/1.jpg),第二列是图片分类的编号(从0开始递增)。
label.txt每一行是一个分类名字,对应的分类编号是行号减1,即从0开始标号。


2) 输出数据
输出一个二进制的模型文件task_id.model,三个json格式的训练信息文件info.txt,stat.txt,accuracy.txt


info.txt格式:
  1. <font face="微软雅黑">{
  2. "start_time": "2015-10-19 21:40:13", // 开始时间
  3. "end_time": "2015-10-19 21:40:13", // 结束时间
  4. "train_image_num": 200000, // 训练集图片数
  5. "valid_image_num": 200000, // 验证集图片数
  6. "category_num": 1000, // 分类数
  7. "total_iteration": 100000, // 总迭代次数
  8. "cur_iteration": 56000, // 当前的迭代次数
  9. "progress": 0.56, // 训练进度,浮点数0-1
  10. "top1_accuracy": 0.65, // 当前的top1准确率, 浮点数0-1
  11. "top5_accuracy": 0.83, // 当前的top5准确率, 浮点数0-1
  12. "stat_file": "stat.txt", // 统计信息,json格式
  13. "detail_accuracy": "accuracy.txt", // 按照分类统计准确率信息,json格式
  14. }</font>
复制代码

stat.txt格式:
  1. <font color="#000000"><font face="微软雅黑">{
  2. "stat": [
  3. {
  4. "iter": 100, // 迭代次数
  5. "top1_accuracy": 0.55, // 当前的top1准确率, 浮点数0-1
  6. "top5_accuracy": 0.73, // 当前的top5准确率, 浮点数0-1
  7. "loss": 3.25 // 损失函数的输出值
  8. },
  9. {
  10. "iter": 200, // 迭代次数
  11. "top1_accuracy": 0.65, // 当前的top1准确率, 浮点数0-1
  12. "top5_accuracy": 0.83, // 当前的top5准确率, 浮点数0-1
  13. "loss": 2.15 // 损失函数的输出值
  14. }
  15. ]
  16. }</font></font>
复制代码
accuracy.txt格式:
  1. <font color="#000000"><font face="微软雅黑">{
  2. "accuracy": [
  3. {
  4. "index": 0, // 分类编号
  5. "name": "宝马", // 分类名
  6. "top1_accuracy": 0.55, // 当前的top1准确率, 浮点数0-1
  7. "top5_accuracy": 0.73, // 当前的top5准确率, 浮点数0-1
  8. },
  9. {
  10. "index": 1, // 分类编号
  11. "name": "奔驰", // 分类编号
  12. "top1_accuracy": 0.65, // 当前的top1准确率, 浮点数0-1
  13. "top5_accuracy": 0.83, // 当前的top5准确率, 浮点数0-1
  14. }
  15. ]
  16. }</font></font>
复制代码
2.2 模型预测

1) 输入数据
输入数据是一个压缩包,内容是待预测的图片和对应的索引文件test.txt。
压缩包的内容结构:


  1. <font color="#000000"><font face="微软雅黑">dataset/test.txt
  2. dataset/image/…
  3. </font></font>
复制代码
图片存放在dataset/image/,子目录结构由用户自定义。
test.txt每一行是一个图片路径(相对路径,例如dataset/image/1.jpg)。


2) 输出数据
输出明文的预测结果result.txt,训练信息info.txt。
result.txt第1列是图片路径,第2列和第3列是概率最高的图片分类名字和概率,依次类推,展示概率最高的5种结果,一共11列。
info.txt格式:


  1. <font color="#000000"><font face="微软雅黑">{
  2. "start_time": "2015-10-19 21:40:13", // 开始时间
  3. "end_time": "2015-10-19 21:40:13", // 结束时间
  4. "total_image_num": 100000, // 需要预测的图片数
  5. "finished_image_num": 50000, // 完成预测的图片数
  6. "progress": 0.5, // 训练进度,浮点数0-1
  7. "result": "result.txt" // 预测结果文件
  8. }</font></font>
复制代码
2.3 特征提取

1) 输入数据
输入数据是一个压缩包,内容是待抽取特征的图片和对应的索引文件test.txt。
压缩包的内容结构:

  1. <font color="#000000"><font face="微软雅黑">dataset/test.txt
  2. dataset/image/…</font></font>
复制代码
图片存放在dataset/image/,子目录结构由用户自定义。
test.txt每一行是一个图片路径(相对路径,例如dataset/image/1.jpg)。


2) 输出数据
输出明文的特征文件result.txt,训练信息info.txt。
result.txt第一列是图片路径,第二列是参数列表,参数之间用逗号隔开。
info.txt格式:

  1. <font color="#000000"><font face="微软雅黑">{
  2. "start_time": "2015-10-19 21:40:13", // 开始时间
  3. "end_time": "2015-10-19 21:40:13", // 结束时间
  4. "total_image_num": 100000, // 需要预测的图片数
  5. "finished_image_num": 50000, // 完成预测的图片数
  6. "progress": 0.5, // 训练进度,浮点数0-1
  7. "result": "result.txt" // 预测结果文件
  8. }</font></font>
复制代码
3.LR

1)输入数据
输入训练/预测文件,每行为一条记录

  1. <font color="#000000"><font face="微软雅黑"><line> .=. <click> <show> <feature> <value> <feature>
  2. <value> …<feature> <value>
  3.         <click> .=. <integer>
  4.         <show> .=. <integer>
  5.         <feature> .=. <integer>
  6.         <value> .=. <float></font></font>
复制代码
记录的第1个字段<click>为点击数,第2个字段<show>为展示数,要求为整数。后面则跟着<feature> <value>值对,feature指定非零值的维度下标,value则为该非零值(浮点数)。所有未指定的维度皆为0值。
在预测文件中,由于<click>和<show>未知,两个字段都置为0。

2)输出数据
输出一行权重向量,指定所有维度的权重值。

  1. <font color="#000000"><font face="微软雅黑"><line> .=. <feature>:<value> <feature>:<value> …<feature>:<value></font></font>
复制代码
4.Word2Vec

1)输入数据
训练数据集需要提前分好词,词语词之间用空格分开,句子与句子之间用换行符分开,如:
  白金汉宫 为 习近平 夫妇 安排 了 私人 游览
  把 创新 创业 教育 融入 人才 培养
2)输出数据:

  1. <font color="#000000"><font face="微软雅黑">*.bin: 词向量的二进制文件;
  2. *.txt: 词向量的文本可读文件;</font></font>
复制代码
您需要登录后才可以回帖 登录 | 立即注册
您需要登录后才可以发帖 QQ登录

联系我们|腾讯云平台|积分商城|腾讯云官方论坛    

GMT+8, 2018-9-26 17:50 , Processed in 1.168332 second(s), 29 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部